Story of Business • Technology • Sustainability
Share on
×

Share

Gemini 3.5 Live Translate แปลเสียงพูดเป็นคำพูดแบบเรียลไทม์กว่า 70 ภาษา

Gemini 3.5 Live Translate แปลเสียงพูดเป็นคำพูดแบบเรียลไทม์กว่า 70 ภาษา

Google ประกาศเปิดตัว Gemini 3.5 Live Translate โมเดลเสียงล่าสุดสำหรับแปลเสียงพูดเป็นคำพูด (Speech-to-Speech) แบบเกือบเรียลไทม์ รองรับการทำงานมากกว่า 70 ภาษา ซึ่งเป็นการพัฒนาต่อยอดจากบริการแปลภาษาของ Google ที่ให้บริการในปัจจุบัน

ฟังก์ชันเด่นของ Gemini 3.5 Live Translate มีรายละเอียดดังนี้:

  • ระบบแปลเสียงต่อเนื่องลดการดีเลย์: โมเดลเปลี่ยนจากระบบสลับกันพูดที่ต้องรอให้จบประโยค มาเป็นการประมวลผลเสียงพูดขณะสตรีมและแปลอย่างต่อเนื่อง รักษาสมดุลระหว่างการจับบริบทและการแปลทันที ส่งผลให้การสนทนาไหลลื่น ดีเลย์ตามหลังผู้พูดเพียงไม่กี่วินาที
  • ตรวจจับภาษาและรักษาน้ำเสียงอัตโนมัติ: รองรับอินพุตหลายภาษา (Multilingual) โดยไม่ต้องตั้งค่าด้วยตนเอง พร้อมความสามารถในการจำลองโทนเสียง จังหวะการพูด และระดับเสียงสูงต่ำของผู้พูดดั้งเดิมให้เป็นธรรมชาติ
  • ระบบตัดเสียงรบกวน: มีฟังก์ชันตัดเสียงรบกวนจากสภาพแวดล้อม ช่วยให้แอปพลิเคชันทำงานได้แม่นยำในพื้นที่ที่มีเสียงดัง
  • ความปลอดภัยด้วยลายน้ำดิจิทัล: เสียงแปลที่สร้างจากโมเดลทั้งหมดจะถูกฝังลายน้ำดิจิทัลด้วยเทคโนโลยี SynthID ที่ไม่สามารถรับรู้ได้ด้วยหูเปล่า เพื่อให้สามารถตรวจสอบเนื้อหาที่สร้างโดย AI และป้องกันการกระจายข้อมูลที่ผิดพลาด (Misinformation)

สำหรับการเปิดใช้งานในกลุ่มผู้ใช้ต่าง ๆ แบ่งออกเป็น 3 ส่วนหลัก ได้แก่:

  1. กลุ่มนักพัฒนาซอฟต์แวร์: เปิดให้ใช้งานเวอร์ชัน Public Preview ผ่าน Gemini Live API และ Google AI Studio โดยสามารถทำงานร่วมกับแพลตฟอร์มโครงสร้างพื้นฐานสตรีมมิ่ง เช่น Agora, Fishjam, Livekit, Pipecat และ VisionAgents ทั้งนี้ แพลตฟอร์ม Grab กำลังทดสอบโมเดลนี้เพื่อใช้ในการโทรติดต่อระหว่างคนขับและผู้โดยสาร รวมถึงบริษัท CJ ENM และ Software Mansion ที่ร่วมทดสอบประสิทธิภาพด้านความเร็วและความแม่นยำ
  2. กลุ่มองค์กรธุรกิจ: เปิดใช้งานเวอร์ชัน Private Preview ในเดือนมิถุนายน 2569 บน Google Meet สำหรับลูกค้า Google Workspace Business บางกลุ่ม โดยขยายการรองรับคู่ภาษาเพิ่มขึ้นเป็นมากกว่า 2,000 คู่ภาษา (จากเดิมรองรับ 5 ภาษา และต้องมีภาษาอังกฤษเป็นต้นทางหรือปลายทาง) พร้อมปรับปรุงอินเทอร์เฟซใหม่ ก่อนขยายการใช้งานทั่วไปช่วงปลายปี
  3. กลุ่มผู้ใช้ทั่วไป: เปิดใช้งานผ่านแอปพลิเคชัน Google Translate ทั้งบนระบบปฏิบัติการ Android และ iOS โดยทำงานร่วมกับหูฟังเพื่อฟังเสียงแปลตามโทนเสียงเดิม นอกจากนี้ในระบบ Android จะมีการเพิ่ม “โหมดการฟัง” (Listening Mode) ที่ช่วยให้ผู้ใช้ฟังเสียงแปลได้โดยตรงผ่านลำโพงแนบหูของโทรศัพท์โดยไม่ต้องใช้หูฟัง

ใช้งาน Gemini 3.5 Live Translate ได้ในการประชุมทางวิดีโอ

ฟีเจอร์การแปลเสียงพูด (Speech Translation) ใน Google Meet กำลังจะเปลี่ยนมาใช้ Gemini 3.5 Live Translate ในเร็ว ๆ นี้ ซึ่งจะช่วยยกระดับประสบการณ์การใช้งานโดย: 

  • รองรับมากกว่า 70 ภาษา จากเดิมที่รองรับได้เพียง 5 ภาษา
  • ช่วยให้สามารถสนทนาข้ามคู่ภาษาได้มากกว่า 2,000 คู่ภาษาภายในการประชุมเดียว ซึ่งขยายขีดความสามารถจากเดิมที่แปลได้เฉพาะในกรณีที่ภาษาอังกฤษเป็นภาษาต้นทางหรือปลายทางเท่านั้น
  • มีการอัปเดตอินเทอร์เฟซใหม่เพื่อให้เข้าถึงฟีเจอร์แปลเสียงพูดได้ทันที

Google จะเปิดตัวการอัปเดตนี้ในเวอร์ชัน Private Preview สำหรับลูกค้า Google Workspace Business บางกลุ่ม โดยจะเริ่มให้บริการตั้งแต่เดือนนี้ และจะขยายการใช้งานในวงกว้างขึ้นในช่วงปลายปีนี้

ใช้งาน Gemini 3.5 Live Translate ได้ในแอป Google Translate ทั้งบน Android และ iOS

โมเดลนี้จะเริ่มทยอยเปิดให้ใช้งานในแอป Google Translate ทั่วโลก ทั้งบนระบบปฏิบัติการ Android และ iOS เมื่อใช้ฟีเจอร์แปลสด (Live Translate) เพียงเชื่อมต่อหูฟังคู่ใดก็ได้ ก็จะได้สัมผัสกับประสบการณ์การแปลที่ราบรื่นยิ่งขึ้นและเป็นโทนเสียงของผู้พูดได้ในกว่า 70 ภาษา

นอกจากนี้ Google ยังจะทยอยเปิดให้บริการ “โหมดการฟัง” (Listening Mode) แบบใหม่ที่มาพร้อม Gemini 3.5 Live Translate สำหรับผู้ใช้ Android โหมดนี้จะช่วยให้ผู้ใช้งานได้ยินเสียงแปลโดยตรงผ่านหูฟังในโทรศัพท์ เพียงแค่ยกโทรศัพท์ขึ้นมาแนบหูเหมือนการคุยสายปกติ เสียงแปลก็จะสตรีมส่งตรงถึงผู้ใช้งานทันที

ใส่ลายน้ำด้วย SynthID

เสียงทั้งหมดที่สร้างขึ้นโดยโมเดลของ Google จะถูกใส่ลายน้ำดิจิทัลด้วย SynthID โดยลายน้ำที่ไม่สามารถมองเห็นได้ด้วยตาเปล่านี้จะถูกผสานรวมเข้ากับเอาต์พุตเสียงโดยตรง เพื่อให้มั่นใจว่าเนื้อหาที่สร้างโดย AI จะยังคงสามารถตรวจจับได้ ซึ่งจะช่วยป้องกันการให้ข้อมูลที่ไม่ถูกต้อง (Misinofrmation)

ข่าวอื่น ๆ ที่น่าสนใจ

ไมโครซอฟท์จัด AI Tour Bangkok ดันธุรกิจไทยสู่ยุค Frontier Transformation

จาก AIGC สู่ AIGPC: ก้าวต่อไปของ AI Governance ไทย

AI Ready for SME ภารกิจลดช่องว่าง AI ของธุรกิจไทย

×

Share

ผู้เขียน

The Story Thailand Avatar