TH | EN
TH | EN
หน้าแรกTechnologyBlendata กับภารกิจสร้าง Data Platform โครงสร้างพื้นฐานสู่การขับเคลื่อน Big Data & AI

Blendata กับภารกิจสร้าง Data Platform โครงสร้างพื้นฐานสู่การขับเคลื่อน Big Data & AI

ในยุคที่ข้อมูลคือ New Oil ที่สามารถสร้างมูลค่าทางเศรษฐกิจได้อย่างมหาศาล และผลักดันให้หลายองค์กรทั้งขนาดใหญ่และขนาดเล็กทั่วโลกปรับตัวไปสู่การเป็นองค์กรที่ขับเคลื่อนด้วยข้อมูล (data-driven) สถานการณ์ดังกล่าวทำให้ความต้องการในการมี ดาต้า แพลตฟอร์ม (Data Platform) เพิ่มมากขึ้น

งานนี้ ทางทีม The Story Thailand ได้มีโอกาสพูดคุยกับ ณัฐนภัส รชตะวิวรรธน์ ประธานเจ้าหน้าที่บริหารและผู้ร่วมก่อตั้ง บริษัท เบลนเดต้า จำกัด หนึ่งในผู้ให้บริการดาต้า แพลตฟอร์ม แนวหน้าของไทย เพื่อทำความเข้าใจถึง เทคโนโลยีของดาต้า แพลตฟอร์ม ความสำคัญ ความจำเป็น และการนำมาใช้งาน

ปัจจุบัน ทางสำนักงานส่งเสริมเศรษฐกิจดิจิทัล (ดีป้า) ได้ประเมินคร่าว ๆ ว่า แนวโน้มการเติบโตของธุรกิจดาต้า แพลตฟอร์ม เฉพาะในประเทศไทย จะเติบโตถึงหลักหมื่นล้านในอนาคตอันใกล้ที่ความสำคัญและบทบาทของ บิ๊กดาต้า เป็นสิ่งที่องค์กรทั้งหลายไม่สามารถขาดไปได้

Data Warehouse, Data Lake, Data Lakehouse คืออะไร?

คำศัพท์เหล่านี้คือคำเรียกเทคโนโลยีที่เกี่ยวข้องกับการบริหารจัดการข้อมูล โดยคำที่องค์กรส่วนใหญ่คุ้นชินมากที่สุดก็คือ Data Warehouse หรือ คลังข้อมูล เพราะว่าในอดีตที่ผ่านมา องค์กรขนาดกลางไปจนถึงขนาดใหญ่ส่วนใหญ่ล้วนมี Data Warehouse เป็นของตนเอง เพื่อเก็บรวบรวมข้อมูลที่มีมากมายมหาศาลของแต่ละแผนกในองค์กรเข้ามารวมกันไว้ ณ ที่เดียวกัน ทำให้เวลาที่องค์กรอยากดูรายงานอะไรสักเรื่อง เช่น ยอดขายของเดือนนี้เป็นอย่างไร เซลล์คนไหนขายดีสุด ผลิตภัณฑ์ประเภทไหน (SKU) ไหนขายดีสุด เป็นต้น ก็จะสามารถหาดูได้ โดยนำข้อมูลจาก Data Warehouse เหล่านี้รวบรวมเข้ามาได้ด้วยกัน กลายเป็นจุดกำเนิดของเทคโนโลยี Data Warehouse ขึ้นมา

ถามว่าคุณสมบัติการใช้งานตอบโจทย์หรือไม่ ก็ต้องตอบว่าตอบโจทย์ความต้องการใช้งานบางส่วนแต่ไม่ได้ตอบโจทย์ของธุรกิจในเรื่องของราคาที่ค่อนข้างแพง ก่อนหน้านี้ในช่วง 10 ปีที่ผ่านมา ในไทยประมาณปี 2010 ข้อมูลที่ไร้ระเบียบไม่มีโครงสร้าง (unstructure) รวมถึงข้อมูลกึ่งโครงสร้าง (semi-structure) นั้นมีมากขึ้น

ทั้งนี้ ข้อมูลที่มีโครงสร้าง (structure) คือข้อมูลที่จัดเก็บอยู่ในตารางของฐานข้อมูลอย่างเป็นระเบียบ ขณะที่ข้อมูลที่ไม่มีโครงสร้างหรือข้อมูลกึ่งโครงสร้างก็คือข้อมูลแบบ plain text หรือข้อมูลที่ไม่มีโครงสร้างอะไรเลยจากระบบแอปพลิเคชัน ระบบโมบายล์แอป (mobile app) โอเพ่น ดาต้า (Open data) โซเชียล มีเดีย (Social Media) หรือ ข้อมูลดาต้าภายนอก โดยทั้งหมดนี้ถือเป็นดาต้าที่ไม่มีโครงสร้างทั้งสิ้น

ในกรณีที่ไม่ใช่ข้อความ ข้อมูลที่ไม่มีโครงสร้างก็จะเป็นข้อมูลฝั่งภาพและเสียงจากวิดีโอ กล้อง กล้องมือถือ กล้องวงจรปิด โดยข้อมูลภาพและเสียงเหล่านี้มีแนวโน้มจะเพิ่มจำนวนมากขึ้นเรื่อย ๆ ทำให้องค์กรต้องการนำข้อมูลที่ไม่มีโครงสร้างทั้งข้อความ ภาพและเสียงเหล่านี้ เข้ามาร่วมวิเคราะห์ด้วย

เพราะบางครั้ง เช่น ในการประเมินยอดขายว่าเดือนที่ผ่านมาเป็นอย่างไร เกิดอยากเอาข้อมูลฟีดแบ็กของลูกค้าที่โดย 10 ปีที่ผ่านมา ฟีดแบ็กของลูกค้าล้วนอยู่บนโซเซียลหมดเลย กลายเป็นโจทย์ปัญหาใหญ่ และ ใหม่ ขององค์กรในการตามหาวิธี “ทำ” เพราะ Data Warehouse ที่บริษัทห้างร้านทั้งหลายใช้อยู่ในขณะนั้นไม่สามารถทำได้ เนื่องจากระบบ Data Warehouse ไม่ได้รับการออกแบบมาให้รองรับข้อมูลกึ่งโครงสร้าง หรือไม่มีโครงสร้าง

ขณะเดียวกัน อีกหนึ่งปัจจัยที่สำคัญก็คือ Data Warehouse ไม่ได้เหมาะกับการรองรับข้อมูลขนาดใหญ่ หรือ บิ๊ก ดาต้า (Big Data) ที่มีการบันทึกวินาทีละ 2-3 ล้านครั้ง พูดให้เข้าใจง่ายขึ้นก็คือ หนึ่งวินาทีมีข้อมูลวิ่งเข้ามาบันทึกในระบบถึง 2 ล้านบรรทัด ซึ่งเทคโนโลยีของ Data Warehouse ไม่ได้ตอบโจทย์ตรงนี้

ปัญหาติดขัดดังกล่าวทำให้เกิดการคิดค้นเทคโนโลยีที่เรียกว่า Data Lake โดยที่ไทยเพิ่งจะมีการรับเอาเทคโนโลยี Data Lake มาประยุกต์ใช้ในช่วงประมาณปี 2010 หรือราวสิบกว่าปีที่ผ่านมา ซึ่งเทคโนโลยีที่คนไทยคุ้นชินมากที่สุดน่าจะเป็น ฮาดูบ (Hadoop)

ฮาดูบ คือ ซอฟต์แวร์เลเยอร์ที่จะทำให้องค์กรทั้งหลายสามารถสร้าง Data Lake หรือ ทะเลสาบข้อมูลได้ โดยหลักการทำงานสำคัญของฮาดูบก็คือต่อให้เป็นดาต้ารูปแบบไหนก็สามารถนำมากอง ณ ที่ ทะเลสาบแห่งนี้ได้ หลังจากนั้น เทคโนโลยีของฮาดูบก็จะสามารถจัดการประมวลผลข้อมูลขนาดใหญ่ที่นำมาจากหลายแหล่งมากองอย่างสะเปะสะปะ ไม่มีโครงสร้างเหล่านี้ได้ ภายในเวลาอันรวดเร็ว

กระนั้น ในระหว่างทางที่นำ Data Lake มาใช้งานก็เกิดปัญหาขึ้น นั่นคือ Data Lake ที่ใช้งานไม่สามารถตอบโจทย์ได้ในทุกกรณีการใช้งาน

“พูดง่าย ๆ ก็คือ Data Lake ตอบโจทย์บางเคสของ Data Warehouse ไม่ได้ โดยทีม Data Warehouse เดิมที่มี Data Warehouse อยู่ ถ้าไปถามตามองค์กร เขาก็จะบอกว่า เขาต้องมีทั้ง Data Lake และ Warehouse ประกอบกัน”

สำหรับปัญหาที่ตอบโจทย์ไม่ได้ก็คือ Data Warehouse ไม่สามารถนำไปจัดการกับข้อมูลขนาดใหญ่ได้ ขณะที่ Data Lake ก็ไม่สามารถตอบโจทย์ Warehouse ได้ในบางเงื่อนไข เช่นกรณีมีข้อมูลมาจัดเก็บ Data Lake ไม่สามารถอัปเดตข้อมูลที่เข้ามาจัดเก็บใหม่ในภายหลังได้

“ผมยกตัวอย่างข้อมูลของธนาคาร ถ้าต้องการจัดเก็บข้อมูลว่าคนๆ นี้มีเงินคงเหลือในบัญชีเงินฝากเท่าไหร่ ซึ่งมันก็ต้องมีการโอน-ฝาก เข้ามาเรื่อยๆ ใช่ไหมครับ ซึ่งในกรณีนี้ Data Lake ไม่สามารถอัปเดตได้ ถือเป็นข้อจำกัดในเทคโนโลยี Data Lake เลยนะครับ”

Blendata รวมพลังบิ๊กดาต้า ระเบิดศักยภาพธุรกิจ

ทั้งนี้ การที่ Data Lake ไม่สามารถอัปเดตได้ ก็จะกลายเป็นการข้อจำกัดในการดำเนินงานขององค์กร เช่น ไม่สามารถจัดทำรายงานบางอย่างได้ ดังนั้น จึงต้องกลายเป็นมี 2 ระบบ ก็คือต้องมี Data Lake ที่คอยจัดเก็บข้อมูลเยอะ ๆ เพื่อจัดการกับกลุ่มผู้ใช้งาน (used cases) ที่ Data Lake ทำได้ แต่ทำงานกับ Data Warehouse ไม่ได้ ในขณะที่ Data Warehouse ก็จัดการข้อมูลในส่วนที่ Data Lake ไม่สามารถทำได้

“พอมาในยุคหลังๆ ประมาณ 3 ปีที่ผ่านมา ในต่างประเทศก็เกิดคอนเซ็ปต์ของ Data Lakehouse ซึ่งถ้าสังเกตจากชื่อ ก็คือการนำ Data Lake กับ Data Warehouse มารวมกัน กลายเป็น Lakehouse ซึ่งนี่ก็คือที่มาของเทคโนโลยี ที่เกิดขึ้นมาด้วยการพัฒนาจุดอ่อนของเทคโนโลยีเดิมที่มีอยู่เพื่อให้เทคโนโลยีใหม่สามารถรองรับข้อดีของทั้งสองเทคโนโลยีก่อนหน้า ทำให้ทำได้ทั้งสองอย่าง หนึ่งคือมีความสามารถในการเก็บข้อมูลได้ทุกชนิดแบบ Data Lake ที่เป็นบิ๊กดาต้า และมีข้อมูลหลากหลายรูปแบบทั้งกึ่งโครงสร้าง ไม่มีโครงสร้าง หรือมีโครงสร้าง ขณะเดียวกันก็เป็นฐานข้อมูลที่สามารถทำงานของ Data Warehouse คืออัปเดตได้ บริหารจัดการได้ วิเคราะห์ได้ เช่น การทำรายงานการขาย การคาดการณ์ยอดขายรายเดือน เป็นต้น”

แต่ที่เหนือไปกว่านั้น เมื่อเทคโนโลยี Data Lakehouse มีความสามารถรองรับบิ๊กดาต้าของ Data Lake และจัดการข้อมูลของ Warehouse แบบเดิม สิ่งที่ทำได้เพิ่มเติมก็คือ การที่งานวิเคราะห์สามารถนำมาจัดการได้บนแพลตฟอร์มเดียวกัน

ยกตัวอย่างเช่น การนำปัญญาประดิษฐ์ (AI) หรือ Machine Learning (ML) มาวิเคราะห์เพื่อคาดการณ์ว่า เซลล์จะมียอดขายเท่าไร นอกจากผลิตภัณฑ์ตัวนี้ที่ขายดีแล้ว จะมีผลิตภัณฑ์ประเภทไหนที่ขายดีถัดไป

หรือ ในกรณีวิเคราะห์ลูกค้ารายหนึ่งจากลูกค้าทั้งหมด 77 ล้านคนทั่วไทย ลูกค้าคนดังกล่าว ในช่วงเฉพาะวันนี้ ถ้าจะโทรศัพท์ไปเสนอขายสินค้าให้เขาโดยตรง (direct sale) จากสินค้าคงคลังที่มีอยู่มีประมาณ 2,000 ชิ้น จะเลือกขายสินค้าตัวไหนให้ตรงกับความสนใจของลูกค้ารายนี้ เช่น สินค้าเทคโนโลยี โดยลูกค้าบางคนบ่นทางโซเซียลว่ากำลังอยากได้ iPhone บางคนที่เป็น Food Lover ก็อาจจะสนใจอาหาร

สิ่งที่ต้องการจะสื่อก็คือว่า เทคโนโลยีสามารถนำงานด้านการวิเคราะห์มหาศาล (anlytic workload) ที่หนักๆ เช่น AI, ML, หรือ advanced anlytic learning ทั้งหลาย สามารถนำมาจัดการบน Data Lakehouse ได้ทั้งหมด

ดังนั้น เมื่อกลับมามองเรื่องความสามารถของ Data Lakehouse ที่นอกจากจะเก็บข้อมูลบิ๊กดาต้าได้ และรองรับงานทุกรูปแบบทุกแนวของ Warehouse ได้ ยังสามารถรอบรับ analytic workload อย่างพวก  AI, ML, หรือ advanced analytic learning ทั้งหมดได้อีกด้วย

ระดับการเปิดรับ Data Lakehouse มาใช้งานของทั่วโลกและไทย

ด้วยความโชคดีที่ได้มีโอกาสพูดคุยกับทางการ์ทเนอร์ และกลุ่มเพื่อนจากหลากหลายภูมิภาค ปัจจุบันต้องบอกว่า การเปิดรับเทคโนโลยี Data Lakehouse ในฝั่งตะวันตกมีการรองรับการใช้งานไปเยอะมากแล้ว โดยแทบทุกคนที่เจ้าตัวเคยคุยด้วย ล้วนใช้งานเทคโนโลยี Data Lakehouse แทบทั้งสิ้น

“หลาย ๆ คนจากฝั่งอเมริกาและยุโรปต่างกระโดดออกจาก Data Lake หมดแล้ว แล้วหันมา Date Lakehouse กันหมด”

ในขณะที่เมื่อหันกลับมามองในภูมิภาคเอเชีย ถือว่าเป็นโชคดีของประเทศไทย เพราะในภูมิภาคเอเชีย ไทยถือว่าก้าวกระโดดที่สุดแล้ว อีกทั้งยังเริ่มมีการเปิดรับประยุกต์ใช้งาน Data Lakehouse ให้ได้เห็นกันบ้างแล้ว

“คือเราได้เห็นความเคลื่อนไหวของลูกค้าที่เคลื่อนตัวออกจาก Data Lake โดยมีทั้งที่ move ออกไปยัง Lakehouse หรือ หนีออกไปอยู่ในเทคโนโลยี Data Lake แต่เปลี่ยนไปอยู่บนคลาวด์ (cloud) ส่วน Data Lake แบบเดิมตอนนี้ คนที่ได้พูดคุยด้วยทุกคนต่างอยากเดินจาก traditional technology ของ Data Lake กันหมด เหลือก็แค่มีใครบ้างที่เริ่มลงมือทำแล้ว เท่านั้นเอง”

ขณะเดียวกัน ด้วยความที่ปีที่แล้วเป็นปีของ AI ที่แหล่งหรือวัตถุดิบที่ใช้ในการผลิตหรือเรียนรู้ AI ก็คือ ข้อมูล ดังนั้น เทคโนโลยี Data Lakehouse จึงตอบโจทย์ความต้องการในการจัดทำโมเดลการเรียนรู้ของ AI และเป็นเทคโนโลยีจัดการข้อมูลที่มีประโยชน์และมีประสิทธิภาพเพิ่มขึ้นอย่างมาก เมื่อเปรียบเทียบกับ Data Lake หรือ Data Warehouse แบบดั้งเดิม

ส่วนคำถามที่ว่าตอนนี้ไทยเป็นอย่างไร ก็ต้องตอบว่าไทยกำลังไป และไปได้มากกว่า เมื่อเทียบกับคนในภูมิภาคเดียวกัน แต่ถ้าเทียบกับภูมิภาคอื่นๆ ในฝั่งตะวันตก ก็ต้องบอกว่าตะวันตกไปไกลได้สักพักแล้ว

Data Lakehouse VS AI

ณัฐนภัส อธิบายว่า ความสัมพันธ์ระหว่าง Data Lakehouse กับ AI ถือเป็นปัจจัยที่เกื้อหนุนกันและกัน (support factor) คือ AI จะเกิดได้อย่างมีคุณภาพก็ต้องมีดาต้าที่ดี

“คำว่า ดาต้าที่ดีก็คือ มีการจัดเก็บที่ดี มีคุณภาพของดาต้าที่ดี มีฐานแพลตฟอร์มที่รองรับการดึงดาต้ามาปั่น AI แล้วก็เช่นเดียวกัน องค์กรหลาย ๆ ที่ ที่ก่อนหน้า อาจจะนึก กรณีใช้งาน (used case) ไม่ออกว่า ฉันจะใช้งานแพลตฟอร์มอย่างไร จะทำ Data Lakehouse หรือจะทำ Data Lake ไปทำไม แต่พอเห็นเคส AI ก็อยากจะทำบ้าง อยากมี AI องค์กรเป็นของตนเอง แล้วข้างนอกที่ซื้อใช้สำเร็จรูปก็ไม่ตอบโจทย์ ซึ่งตรงนี้ก็เลยเป็นปัจจัยสนับสนุนให้องค์กรที่อยากทำ เริ่มทำจากการสร้างดาต้า แพลตฟอร์มขององค์กรก่อนดีกว่า และฐานของเทคโนโลยีในส่วนนี้คือ Data Lakehouse”

ในส่วนของ Data Lake ที่อยู่บนคลาวด์ ณัฐนภัส กล่าวว่าในช่วงประมาณต้นปี 2010 ถึง 2010 ปลายๆ เวลาที่พูดถึงการทำบิ๊กดาต้า ทุกคนจะพูดถึง ฮาดูบ โดยภาครัฐและเอกชนต่างสร้างฮาดูบ แพลตฟอร์มกันเต็มไปหมด ซึ่งฮาดูบอยู่บน on premise คืออยู่บนดาต้า เซ็นเตอร์ของลูกค้า ไม่ได้อยู่บนคลาวด์

ดังนั้น เทคโนโลยี Data Lake ที่ย้ายไปอยู่บนคลาวด์ จึงไม่ใช่เทคโนโลยีเดียวกันกับ Data Lake โดยคอนเซ็ปต์ Data Lake ของคลาวด์ก็จะเป็นเหมือนกับ evolve ของ Data Lake คือไม่ได้ใช้ฮาดูบ แต่ไปใช้เทคโนโลยีตามค่ายของคลาวด์ เช่น ถ้าเป็น AWS ก็คือ S3 หรือ Azure ก็จะเป็น Azure Data Lake ส่วน Google ก็เป็น Google Cloud Storage ดังนั้น Data Lake ของคลาวด์ ก็จะใช้ส่วนนี้เป็น Data Lake แทน ทำให้พอย้ายไปที่คลาวด์และทำ Data Lake จึงมีความแตกต่างออกไป

อะไรคือเทคโนโลยีพื้นฐานของ Data Lakehouse

เทคโนโลยีพื้นฐานของ Data Lakehouse ก็คือ Data Lake แต่ไม่ใช่ Data Lake ที่เป็นฮาดูบ โดยพื้นฐานของเทคโนโลยี Data Lake ที่ว่านี้ก็คือการมีพื้นที่ในการจัดเก็บข้อมูลมหาศาลได้และสามารถประมวลผลได้เร็ว ซึ่งพอมาเป็น Lakehouse ที่ความสามารถสำคัญก็คือ ข้อมูลที่จัดเก็บต้องสามารถอัปเดตได้ ก็เลยเป็นกลุ่มเทคโนโลยีที่ทำอย่างไรข้อมูลที่จัดเก็บจะสามารถอัปเดตได้

ทั้งนี้ แต่ละเวนเดอร์ส (vendors) ก็จะทำเทคโนโลยีที่จะทำให้ Lakehouse อัปเดตข้อมูลได้ขึ้นมา หรือ Open source ก็จะมีออกมาเหมือนกัน

การเตรียม “คน” เพื่อรองรับ Data Lakehouse

ณัฐนภัส กล่าวว่า ถ้าองค์กรนั้น ๆ ไม่ได้มี Data Lake หรือ Data Lakehouse อยู่ก่อนแล้ว องค์กรเหล่านั้นก็จำเป็นที่จะต้องมีการรีสกิล (reskill)/อัปสกิล (upskill) พนักงาน

หรือในกรณีที่องค์กรมีทีม Data Warehouse เดิมที่คุ้นชินกับงานของ Warehouse แบบเดิม ๆ แค่กระโดดมา Data Lake ยังไม่ถึงขั้น Lakehouse โดยทั่วไป สิ่งที่ทีมต้องเรียนรู้ใหม่ก็คือ ชุดของเทคโนโลยีในการทำ Data Lake ใหม่ โดยเป็นการเรียนรู้ว่า ติดตั้งอย่างไร บำรุงรักษาอย่างไร พัฒนาอย่างไร ทำ Data Pipeline อย่างไร การจัดเก็บนำเข้ามาประมวลผลดาต้า ต้องทำอย่างไร ทั้งหมดเป็นสิ่งที่ต้องเรียนรู้ใหม่

พอขยับมาเป็น Lakehouse ทั้งหมดก็ต้องเรียนรู้เทคโนโลยีในระดับของ Lakehouse อีกว่า ต้องทำอย่างไรให้ ชุดข้อมูลของ Data Lake สามารถบูรณาการเข้ามาใน Lakehouse แล้วก็สามารถดูแล รักษา พัฒนาใดๆ บน Lakehouse ได้

เรียกได้ว่า การพัฒนาเตรียมความพร้อมของ “คน” ถือเป็นความท้าทายที่สำคัญอย่างมากในกรณีที่องค์กรจะขยับขึ้นมาใช้เทคโนโลยีของ Data Lakehouse

โดยขณะนี้มีองค์กรในไทยส่วนหนึ่งนำเทคโนโลยี Data Lake มาใช้แล้ว แต่เป็นเวอร์ชั่นที่อัปเกรดรองรับงาน workload แบบ Warehouse ด้วย แล้วก็ AI ด้วย เช่นกรณีของ Telco การที่เราจะเก็บข้อมูลทุกอย่างที่ Telco มี มาไว้ในที่เดียวกัน อันนี้แน่นอนว่า Warehouse ไม่ตอบโจทย์ ต้องใช้ Data Lake

ตัวอย่างข้อมูลเช่น ข้อมูลบันทึก CDR record ของ Telco ซึ่งเป็น ข้อมูลใครโทรหาใคร ก็จะมีบันทึกอยู่ในระบบว่าหมายเลข A โทรหาปลายทางหมายเลข B พร้อมด้วยระยะเวลาในการโทร โดยใช้เสาสัญญาณไหน เซลล์สายไหน ซึ่งแต่ละค่ายจะมีข้อมูลประเภทนี้วิ่งไหลวนตลอดมากกว่า 40 ล้านเบอร์

หรือบันทึกข้อมูลพฤติกรรมผู้ใช้งานอินเทอร์เน็ตของ Telco โดยขณะนี้ไทยมี 3G 4G 5G ที่บอกได้ว่าตอนนี้ผู้ใช้งานกำลังเข้าเยี่ยมชมเว็บไซต์อะไร ในขณะที่อินเตอร์เน็ตบ้านที่ Telco มีบริการก็จะเป็นอีกส่วนหนึ่งที่เอาข้อมูลมาใช้งานเหมือนกัน

“ผมยกตัวอย่างแค่ 2 แหล่ง data source นี้ ถามว่าถ้าเขาจะเอาข้อมูลที่ว่านี้มาใช้งาน จะใช้งานอะไรได้บ้าง คนที่นำมาใช้งานก็จะรู้แล้วว่า คน ๆ หนึ่งในปกติ วันจันทร์ถึงศุกร์ เดินทางไปทำงานที่ไหนบ้าง มีการโทรหาใคร จากข้อมูล CDR ที่บอกว่า คน ๆ นั้นอยู่กับเซลล์ไซต์เสาสัญญาณต้นไหน อาจจะบอกว่า ผมเดินทางจากบ้านมาทำงานที่ลาดพร้าวตลอด ก็จะเห็นเป็น track behavior ย้อนหลังตลอดเลย ซึ่งผมหนึ่งคนจาก 40 กว่าล้านคนของ Telco เดือน ๆ หนึ่งอาจจะมีข้อมูลบันทึกไว้เป็นล้านเลย อาจจะเป็นหลักสิบล้าน ร้อยล้านเลยทีเดียว เท่ากับว่า ตัว Data Lake ก็จะมี transaction ในการใช้งานเยอะ นี่คือประเด็นแรก”

ประเด็นที่สองก็คือ พอรู้แล้วว่าช่วงวันจันทร์ถึงศุกร์ ผมเดินทางไปทำงานที่ลาดพร้าวบ่อย ประเด็นถัดมาก็คือ ผมชอบสินค้าอะไรในช่วงสัปดาห์นี้ ถามว่ารู้ได้อย่างไร ก็ดูจากพฤติกรรมเข้าชมเว็บไซต์ผ่าน 4G 5G เช่น ช่วงที่ผ่านมาผมดูเครื่องกรองน้ำ เพื่อหวังซื้อลดหย่อนภาษี ด้วยการเข้าไปเสิร์ชใน Google หรือ Power Buy

เมื่อได้ 2 used case ข้างต้นมารวมกัน สิ่งที่จะเกิดขึ้นต่อมา และเป็นสิ่งที่หลายองค์กรทำกันก็คือ เมื่อใดก็ตามที่ผมเดินเข้าเซ็นทรัล ลาดพร้าว Telco ก็จะส่ง SMS มาหาผมแล้วว่า ถ้าผมซื้อเครื่องกรองน้ำที่เซ็นทรัล ลาดพร้าวที่แผนกพาวเวอร์บาย ลดพิเศษไปเลย 20%

นี่คือตัวอย่าง และเป็นตัวอย่างที่ใช้จริง ถามว่าพื้นฐานของเทคโนโลยีข้อมูลดังกล่าวคืออะไร คือหนึ่งต้องมี Data Lake แล้วถามว่าทำไมต้องต่อยอดมาเป็น Lakehouse ก็ต้องบอกว่าต้องใช้การอัปเกรด เพื่อให้รู้ว่ามีการบันทึกเรคคอร์ดที่เกิดขึ้นในช่วงขณะนั้น ๆ ว่าไปที่ไหน สนใจสินค้าอะไร ได้อย่างรวดเร็ว

“ถ้าฐานข้อมูลใหญ่ๆ พวกนี้ ผมได้แต่เก็บไปเรื่อยๆ ซ้อนขึ้นไปเรื่อยๆ ผมก็ต้องมานั่งค้นหาอีก ลำบากมาก แต่พอเป็นงาน Lakehouse ที่อัปเดตได้ ผมก็แค่มีตารางข้อมูลตารางหนึ่งที่บอกผมว่า ผม นายณัฐนภัส ช่วงอาทิตย์นี้สนใจสินค้าเครื่องกรองน้ำ อัปเดตเข้าตารางข้อมูลไปเลย จากข้อมูลเดือนหนึ่งที่อาจจะมีหลักหมื่นล้านบรรทัด อันนี้ก็จะสามารถสร้างตารางข้อมูลขึ้นมาตารางหนึ่งในลักษณะ Warehouse เหมือนเมื่อก่อนแต่เป็น Lakehouse แล้วสามารถที่จะแนะนำสินค้าให้กับลูกค้าได้ว่า พอเขาเดินเข้าห้างนี้แล้ว ก็จัดการส่ง SMS ที่ตอบโจทย์โดนใจได้ถูกต้อง”

ในกรณีของภาคการเงินการธนาคารก็ใช้คอนเซ็ปต์การจัดเก็บข้อมูลแบบเดียวกัน ไม่ว่าจะเป็น ข้อมูลบัตรเครดิต ข้อมูลพฤติกรรมกู้เงิน ข้อมูลซื้อประกันจากธนาคาร เป็นต้น

Data Lakehouse ทดแทนหรือต่อขยาย

ถ้าไม่นับต้นทุนค่าใช้จ่าย บวกกับเวลาและความพยายามในการที่จะเคลื่อนย้าย Data Lakehouse ถือว่ามีคุณสมบัติที่สามารถมาทดแทน Data Warehouse และ Data Lake ได้เลย

แต่ในมุมมองของ ณัฐนภัส สิ่งที่เจ้าตัวแนะนำก็คือ ให้พิจารณาความต้องการองค์กรว่าอยู่ในระดับที่จำเป็นต้องไปทดแทนเทคโนโลยีจัดการข้อมูลที่มีอยู่หรือไม่

“คือถ้าองค์กรมีขนาดกลาง Data Warehouse เอาอยู่ ไม่มีปัญหา ทุกวันนี้ออกรายงานสบายมาก ก็อาจจะไม่จำเป็นต้องลงทุนใน Data Lakehouse แต่ถ้าถามว่า Lakehouse เหมาะกับใคร แน่นอนก็คือคนที่มีประเด็นต้องทำการวิเคราะห์บิ๊กดาต้า ดังนั้น ก็ไม่ต้องทำ Data Lake แล้ว ไปทำ Data Lakehouse ที่ตอบโจทย์เลย”

ในส่วนของ segment ที่สองก็คือ กรณีที่อาจจะมี Data Lake อยู่แล้ว แต่ยังไม่ตอบโจทย์ความต้องการใช้งาน ก็ต้องมี Warehouse ด้วยถึงจะตอบโจทย์ทั้งคู่ กรณีนี้ก็สามารถใช้ Lakehouse เข้าไปทดแทนได้เหมือนกัน โดยไปทดแทน Lake และ Warehouse ของเดิมทั้งหมดได้เลย

โดยลูกค้าที่ ณัฐนภัส ให้บริการมีทั้งที่คนที่เคยมีอยู่แล้ว กับ คนที่ไม่เคยมีมาก่อนเลย ซึ่งคนที่มีอยู่อาจจะมีตัวเลือกในการพิจารณาที่ค่อนข้างหลากหลาย

“อย่างที่ผมเล่าไปว่า องค์กรขนาดใหญ่ส่วนใหญ่ในไทยตอนนี้ใช้ ฮาดูบ on premise ด้วยกันทั้งนั้น เป็นดาต้าแพลตฟอร์มแบบเดิมบนดาต้าเซ็นเตอร์ของตนเอง เขาก็จะพิจารณาปัจจัยว่า จะมาย้ายมาคลาวด์ดีไหม หรือ จะทำเป็น Data Lake บนคลาวด์ หรือจะเลือกเป็น Lakehouse ไปเลย”

สำหรับกรณีของ เบลนดาต้า (Blendata) ที่ทางบริษัทเสนอให้กับลูกค้า ก็น่าจะเป็นเจ้าเดียวในไทยที่สามารถทำไฮบริด Data Lakehouse ได้ เรียกว่าถ้าเปรียบเทียบกับเวนเดอร์ในต่างประเทศ เบลนดาต้าเป็นเพียงหนึ่งในไม่กี่รายที่ลูกค้าสามารถเลือกได้ เพราะซอฟต์แวร์ของบริษัทสามารถติดตั้งได้ทั้ง on premise, on cloud แล้วก็ control pane อยู่ที่เดียว ดังนั้น เวลา user ใช้งานก็จะใช้งานผ่านหน้าจอของตนเองเพียงอย่างเดียว โดยที่ไม่ต้องรู้ว่าด้านหลังจะอยู่บน on cloud  ที่มีอยู่ในตลาดไทยและต่างประเทศ รวมถึงฝั่งค่ายจีน หรือ on premise

ถือเป็นข้อเสนอที่ลูกค้าหลาย ๆ คนตอบรับ

องค์กรแบบใดที่ต้องการ Data Lakehouse

ถ้าองค์กรที่มีขนาดไม่ได้ใหญ่ ตัวดาต้าไม่ได้เยอะ กรณีไม่ต้องพิจารณาทำ Data Lake หรือ Lakehouse เลย เพราะว่า ข้อมูลยังไม่เยอะ เช่นมีประมาณแค่ 20,000 เรคคอร์ด ซึ่งในส่วนนี้สามารถเปิด Excel ขึ้นมาจัดการก็ได้

ส่วนปัจจัยที่บ่งชี้ว่า องค์กรจำเป็นต้องนำเทคโนโลยีบริหารจัดการฐานข้อมูลมาใช้ได้แล้ว ณัฐนภัส ระบุว่า ต้องคำนึง 2 ปัจจัยหลักก็คือ ขนาดของข้อมูล (Volume) และความหลากหลายของข้อมูล (Variety)

ขณะเดียวกัน ก็ต้องพิจารณาความจำเป็นในเชิงธุรกิจและเชิงเทคนิค

  1. ถ้ามองในมุมของความจำเป็นทางธุรกิจ ก็หมายความว่า วิธีการแบบเดิมที่จะได้มาซึ่งชุดข้อมูลไม่ตอบโจทย์ความต้องการขององค์กร ณ เวลานั้น อีกต่อไป ยกตัวอย่างที่พบเจอได้บ่อยก็เช่น องค์กรอยากรู้ข้อมูลชุดหนึ่งไปบอกทีมไอที ไอทีไปใช้เวลาขุดข้อมูลถึงสองสัปดาห์ แล้วค่อยทำรายงานออกมา แล้ว user ก็บอกว่าไม่ถูกต้อง ใช้ไม่ได้ ไอทีก็ต้องกลับไปทำใหม่อีกสองสัปดาห์ กลายเป็นวงจรปิงปองอยู่แบบนี้ อันนี้ก็ควรเพิ่มพิจารณาสร้าง Data Lake หรือ Lakehouse ได้แล้ว
  2. ความจำเป็นทางธุรกิจที่องค์กรต้องการทำ case analytic พวก AI หรือแค่อยากมี single view ของดาต้า เพื่อหา insight มาขับเคลื่อนธุรกิจได้มากขึ้น เช่น มีหน้าร้านออฟไลน์ตามสาขาต่าง ๆ แล้วก็มีเว็บไซต์ออนไลน์ แต่ไม่เคยรู้เลยว่าลูกค้าที่อยู่ในออนไลน์เป็นใครที่เดินเข้ามาในร้านออฟไลน์ของเรา ซึ่งบางครั้งปัญหามีเพียงเท่านี้ โดยปัญหาเหล่านี้สามารถแก้ไขได้ด้วยดาต้า แพลตฟอร์มเช่นเดียวกัน เพราะโจทย์ของดาต้า แพลตฟอร์ม คือ การที่ดาต้าอยู่กระจัดกระจาย และข้อมูลมีขนาดใหญ่ และเยอะ ทั้งในแง่ของจำนวน รูปแบบ และระบบ องค์กรต้องการนำมารวมอยู่ในที่เดียวกัน แล้วให้พร้อมทำการวิเคราะห์ สังเคราะห์
  3. ความจำเป็นในเชิงเทคนิค โดยพิจารณาในฐานะทีมไอที ก็ต้องมองว่า ดาต้าที่มีใหญ่พอหรือยัง ถ้าขนาดไม่เยอะ แค่หลักหมื่น Excel จัดการได้ ก็ไม่ต้องใช้ ดาต้า แพลตฟอร์ม  แต่ถ้า ดาต้า เริ่มแตะหลักแสนหลักล้านบรรทัด เกินความสามารถ Excel อันนี้ก็ต้องเริ่มพิจารณาหาทุนจัดทำดาต้า แพลตฟอร์ม

ขณะเดียวกัน นอกเหนือจาก ปริมาณของข้อมูล (volume) แล้ว ความหลากหลายของข้อมูล (variety) ก็เป็นสิ่งที่ต้องพิจารณา เช่นถ้าเมื่อก่อนทำอยู่แค่ระบบ ERP ที่เดียวเลย ไม่ต้องมีระบบอื่นให้วุ่นวาย ก็ไม่ต้องใช้ดาต้า แพลตฟอร์ม แต่ถ้าวันหนึ่ง ผู้บริหารมีข้อเรียกร้องว่าต้องการให้ปั่นดาต้ารวมกัน เช่น เอาข้อมูลยอดจัดซื้อ สินค้าคงคลังมาผสมรวมกับข้อมูลการใช้งานลูกค้าจากอีกระบบหนึ่ง เพื่อดูว่าลูกค้ารายไหนสั่งซื้ออะไร หรือในกรณี B2C ที่อยากจะคาดการณ์ให้ได้ว่า แล้วกลุ่มลูกค้า 20-30 สนใจสินค้าใดเป็นพิเศษ เป็นต้น

ข้อเรียกร้องที่เริ่มต้องการความหลากหลายของข้อมูลข้างต้นแบบนี้ อีกทั้งปริมาณยังมีขนาดใหญ่ด้วย เงื่อนไขปัจจัยนี้ก็ยิ่งจำเป็นต้องทำ ดาต้า แพลตฟอร์ม เป็น Data Lakehouse

หรือในกรณีที่อนาคตอยากทำ AI อยากทำ prediction อยากทำ advance analytic ที่วันนี้ต้องเริ่มสะสมดาต้าแล้ว กรณีนี้ก็ควรต้องสร้าง ดาต้า แพลตฟอร์ม ที่ไม่ควรแค่เก็บข้อมูลได้เท่านั้น แต่ต้องสามารถบริหารจัดการ วิเคราะห์ สังเคราะห์และอัปเดตอย่าง Data Lakehouse สำหรับเก็บข้อมูลเพื่อตอบโจทย์การทำ AI ที่ตั้งเป้าไว้ในอนาคต

STAY CONNECTED

0แฟนคลับชอบ
440ผู้ติดตามติดตาม
spot_img

Lastest News

MUST READ