Event Date : 2018-09-10 - 2018-09-11

Venue : ณ ห้องประชุม 304 – 305 อาคารเฉลิมพระเกียรติ ๘๐ พรรษา ๕ ธันวาคม ๒๕๕๐ (SiMR) ชั้น 3 คณะแพทยศาสตร์ศิริราชพยาบาล มหาวิทยาลัยมหิดล

Website : http://bdm.si.mahidol.ac.th/Pipeline2018

ปัจจุบันการพัฒนาของเทคโนโลยีการหาลำดับเบสแบบใหม่ (Next-Generation Sequencing) สามารถให้ผลการหาลำดับเบสที่มีจำนวนมากและมีความซับซ้อนมากขึ้น ดังนั้นระบบคอมพิวเตอร์พื้นฐานที่ใช้สำหรับจัดการและวิเคราะห์ข้อมูลจำเป็นต้องพัฒนามากขึ้นเพื่อรองรับการวิเคราะห์ข้อมูลได้ถูกต้องและรวดเร็ว การจัดการข้อมูลลำดับเบสทั้งระดับ Whole genome Exome หรือ Transcriptome จำเป็นต้องใช้พื้นที่ในการจัดเก็บขนาดใหญ่ และระบบการคำนวณที่มีกำลังการประมวลผลสูง การวิเคราะห์ข้อมูลลำดับเบสขนาดใหญ่โดยใช้ระบบพื้นฐานสำหรับการวิเคราะห์ข้อมูลที่ติดตั้งในองค์กร (Local Computer Infrastructure) ที่มีประสิทธิภาพไม่เพียงพอในการวิเคราะห์ข้อมูล ทำให้เกิดการใช้ทรัพยากรของระบบการประมวลจำนวนมาก และมักจะใช้เวลานานในการวิเคราะห์ข้อมูล การแก้ปัญหาโดยเพิ่มประสิทธิภาพ Local Computer Infrastructure สามารถทำได้ แต่ต้องใช้งบประมาณจำนวนมาก เนื่องจากระบบมีราคาสูง อีกทั้งยังต้องเสียงบประมาณในการบำรุงรักษาและพัฒนาระบบเพื่อให้ระบบสามารถทำงานได้อย่างมีประสิทธิภาพ ซึ่งในการดูแลระบบประมวลผลขนาดใหญ่นี้ จำเป็นต้องใช้เจ้าหน้าที่ทางด้านเทคโนโลยีสารสนเทศในการทำงาน นอกจากนี้อาจเสี่ยงต่อสถานการณ์ที่มีช่วงเวลาที่ในองค์กรไม่มีความต้องการที่จะวิเคราะห์ข้อมูล ทำให้ระบบถูกตั้งทิ้งไว้ไม่ได้ใช้งานแต่ยังคงต้องมีค่าใช้จ่ายในการบำรุงรักษาระบบอยู่เช่นเดิม

วิธีแก้ปัญหาเหล่านี้ทางหนึ่งคือการเช่าระบบคอมพิวเตอร์มาใช้ตามปริมาณที่ต้องการ โดยปัจจุบันมีระบบการประมวลผลแบบกลุ่มเมฆ (Cloud computing) ที่ตัว Hardware ขนาดใหญ่ของระบบตั้งอยู่ที่ใดที่หนึ่ง ผู้ที่เช่าใช้บริการระบบสามารถลงทะเบียน (Log in) เข้าไปใช้งานเพื่อ ส่งข้อมูลเข้าไปในระบบ ลงโปรแกรม วิเคราะห์ข้อมูล เก็บผลการวิเคราะห์ ผ่านระบบอินเตอร์เน็ทจากที่ใดก็ได้ ทั้งนี้ผู้ใช้งานจะชำระเงินค่าเช่าระบบตามขนาดของระบบประมวลผล และระยะเวลาใช้งานเท่าที่ต้องการเท่านั้นโดยไม่ต้องกังวลในเรื่องของการดูแลรักษาและพัฒนาในส่วน Hardware ของระบบเลย การเช่าระบบคอมพิวเตอร์มาใช้ในการวิเคราะห์ข้อมูลตามปริมาณที่ต้องการนี้ใช้งบประมาณน้อยกว่าการซื้อระบบคอมพิวเตอร์ที่มีกำลังประมวลผลสูงมาติดตั้งเองมาก ซึ่งเหมาะสมกับโครงการวิจัยขนาดเล็กที่ต้องการระบบประมวลผลมาวิเคราะห์ข้อมูลเฉพาะช่วงเวลาที่ดำเนินโครงการ หรือโครงการขนาดใหญ่ที่อาจมีระบบคอมพิวเตอร์กำลังประมวลผลสูงอยู่แล้วแต่ต้องการระบบประมวลผลเพิ่มชั่วคราว

Whole Exome Sequencing เป็นการหาลำดับเบสบริเวณ exon ของทุกยีน (gene) ในจีโนม (genome) ลำดับเบสบริเวณ exon ถูกใช้เป็นต้นแบบสร้างสาย mRNA สำหรับการสังเคราะห์โปรตีน การเปลี่ยนแปลงของลำดับเบส (mutation) ในส่วน exon เป็นสาเหตุของความผิดปกติทางพันธุกรรมหลายชนิด ดังนั้นการศึกษาข้อมูลลำดับเบส whole exome จึงมีความสำคัญทั้งในแง่ของการตรวจหา mutation ที่เกี่ยวข้องกับความผิดปกติทางพันธุกรรม (Genetic marker) หรือวินิจฉัยความผิดปกติทางพันธุกรรมที่พบได้ยาก (Rare genetic disorder)

ในการวิเคราะห์ข้อมูลลำดับเบส Whole exome เพื่อให้ได้ผลการวิเคราะห์ที่รวดเร็วและถูกต้องน่าเชื่อถือต้องประกอบด้วยสองส่วนที่สำคัญคือ ระบบคอมพิวเตอร์ที่มีกำลังประมวลผลสูงพอรองรับปริมาณข้อมูลลำดับเบส Whole exome ได้ และโปรแกรมทางชีวสารสนเทศที่เหมาะสมในการวิเคราะห์ข้อมูล โดยปัจจุบันจำนวนของข้อมูลลำดับเบสในระดับ Whole exome ถูกนำมาใช้ในงานวิจัยเพิ่มขึ้นอย่างมาก อย่างไรก็ตามการวิเคราะห์ข้อมูลเหล่านี้จนได้ผลข้อมูลในระดับที่ต้องการนั้นยังไม่พบว่าทำได้โดยง่ายในหลายๆ โครงการวิจัย ปัญหานี้ทำให้ลดความก้าวหน้าของงานวิจัยในโครงการที่ต้องใช้ข้อมูลประเภทนี้ แต่ขาดคนวิเคราะห์ข้อมูล หรือวิธีวิเคราะห์ข้อมูลทางชีวสารสนเทศที่เหมาะสม ดังนั้นการสร้าง pipelines และ workflows อัตโนมัติ ที่ผ่านการตั้งค่าโปรแกรมที่เหมาะสมเพื่อรองรับการวิเคราะห์ข้อมูล และติดตั้งบนระบบคอมพิวเตอร์ที่มีกำลังประมวลผลสูงที่มีความยืดหยุ่นในการลดหรือขยายขนาดและเสียค่าใช้จ่ายเท่าที่ใช้จริง ก็จะทำให้การวิเคราะห์ข้อมูลลำดับเบส Whole exome เป็นไปได้อย่างมีประสิทธิภาพสูงสุดทั้งในแง่ของผลการวิเคราะห์ข้อมูลและค่าใช้จ่ายที่เกิดขึ้น

เพื่อเพิ่มขีดความสามารถในการวิเคราะห์ข้อมูลลำดับเบส Whole exome ของนักศึกษา อาจารย์ นักวิจัยในหน่วยงานหรือองกรค์ที่ต้องใช้ข้อมูลในระดับ Whole exome ได้อย่างมีประสิทธิภาพ หน่วยชีวสารสนเทศและจัดการข้อมูลวิจัย งานวิจัย คณะแพทยศาสตร์ศิริราชพยาบาล จัดการประชุมเชิงปฏิบัติการเรื่อง “Cloud computing pipeline for Exome sequencing” เพื่ออบรมการวิเคราะห์ข้อมูลลำดับเบส Human Whole exome โดยใช้ pipeline อัตโนมัติที่หน่วยฯ สร้างขึ้นโดยใช้ GATK Best Practices ของ Broad Institute และวิเคราะห์ข้อมูลบนระบบ Cloud computing โดยการอบรมจะเริ่มตั้งแต่การดาวน์โหลดและติดตั้ง Pipeline บนระบบ Cloud computing ที่เตรียมไว้ให้ การนำข้อมูลเข้าไปวิเคราะห์ด้วย pipeline อัตโนมัติบนระบบ Cloud computing และเก็บผลการวิเคราะห์ข้อมูล

 

Organized by : ศูนย์วิจัยเป็นเลิศชีวสารสนเทศและจัดการข้อมูลทางคลินิก คณะแพทยศาสตร์ศิริราชพยาบาล มหาวิทยาลัยมหิดล