ปัญญาประดิษฐ์สำหรับแปลงเสียงเป็นข้อความ (text to speech) มีความแม่นยำสูงขึ้นเรื่อยๆ แต่ส่วนมากแล้วงานวิจัยมักมีเป้าหมายพัฒนาความแแม่นยำอย่างเดียวโดยใช้ข้อมูลเสียงที่อัดไว้ล่วงหน้าเป็นอินพุต แต่งานอีกกลุ่มหนึ่งเช่นการแปลงเสียงบทสนทนานั้นมีเงื่อนไขของระยะเวลาหน่วง (latency) ว่าต้องไม่สูงเกินไป ตอนนี้เฟซบุ๊กก็เปิดซอร์สโครงการ wave2letter++ งานวิจัยแปลงเสียงเป็นข้อความโดยมีระยะเวลาหน่วงต่ำ

โครงการมาพร้อมกับโมเดลแปลงเสียงเป็นข้อความ 4 แบบ ตัวใหม่ที่สุดคือ Time-Depth Separable (TDS) convolutions and Connectionist Temporal Classification (CTC) หรือ TDS+CTC ที่เฟซบุ๊กเพิ่งเปิดเผยรายงานวิจัยเมื่อสัปดาห์ที่แล้ว

เฟซบุ๊กระบุว่า TDS+CTC มีอัตราความผิดพลาดต่ำกว่าโมเดลปัญญาประดิษฐ์อื่นที่มีเงื่อนไขระยะเวลาหน่วงต่ำเหมือนกัน ขณะที่ทรูพุตการแปลงเสียงเป็นข้อความสูงกว่าถึงสามเท่าตัว และระยะเวลาหน่วงจากเสียงจนถึงข้อความที่แสดงออกมานั้นอยู่ที่ 1.09 วินาทีเท่านั้น เมื่อวิเคราะห์เสียงทีละ 0.75 วินาที

ที่มา – Facebook AI Blog


Source: Blognone

error: Content is protected !!
preloader