มาลอง ChatGPT Advanced Voice Mode กัน!

learning

Published 2024-10-03

POST

หลังจาก OpenAI ปล่อย Advanced Voice Mode ให้ Plus users ได้เริ่มใช้ตั้งแต่ 27 กันยายน 2566 ตอนนี้ก็ผ่านมาสัปดาห์นึงแล้ว เลยอยากมาแชร์ความเห็นกันหน่อยครับ

เท้าความก่อนว่า ก่อนหน้านี้ Voice Chat ใน ChatGPT เรียกว่า Standard Voice ซึ่งทำงานโดยแปลงเสียงเป็นข้อความผ่าน Whisper แล้วนำไปประมวลผลด้วย GPT-4o หรือ GPT-4o mini จากนั้นแปลงข้อความกลับเป็นเสียงผ่าน TTS วิธีนี้ก็ทำออกมาได้ดีทีเดียว แต่ยังขาดการรับรู้โทนเสียงและปัจจัยแวดล้อมอื่นๆ ที่มีผลต่อความหมายในการสนทนาจริง

ส่วน Advanced Voice ใหม่นี้ ใช้ความสามารถของ GPT-4o ในการรับและสร้างเสียงได้โดยตรง เป็น Speech-to-Speech แท้ๆ ทำให้สามารถรับรู้โทนเสียงและตอบกลับได้เหมาะสมกับสถานการณ์มากขึ้น รวมถึงสามารถปรับน้ำเสียงให้พริ้วไหวตามบริบทได้ด้วย

จากการทดลองใช้ และท้าทายมันด้วยภาษาไทย พบว่า

🌟มันทำได้ดีกว่าเดิมมาก การตอบสนองไวขึ้น ทำให้การสนทนาเป็นธรรมชาติมากขึ้น

🌟เสียงยังมีติดเหน่ออยู่บ้าง แต่น้อยลงไปเยอะ

🌟เราสามารถพูดขัดมันเมื่อไหร่ก็ได้เลย ไม่ต้องรอมันพูดจนจบ

🌟น้ำเสียงมีความหลากหลาย สามารถเล่าโดยมีจังหวะหยุดพัก หรือทำน้ำเสียงกระแทกสร้างอารมณ์ตกใจ หรือพูดช้าๆราวกับว่ากำลังสะกดมนตรา เอามาเล่านิทานก่อนนอนได้เลย

🌟บทสนทนาที่เราพักไว้ สามารถนำมาคุยต่อ โดยที่บริบททุกอย่างยังถูกจดจำไว้

แต่ถึงทุกอย่างจะดูดี แต่เราก็เจอข้อจำกัดบ้างอย่างเช่น

🔹 ไม่สามารถดึงข้อมูลจากอินเตอร์เน็ตได้

🔹 ตัว Advance สามารถตอบได้ทีละประมาณ 20 วินาที หลังจากนั้นจะหยุดพูด เราสามารถบอกให้มันพูดต่อจากจุดนั้นได้ ถ้าเป็นตัว Standard มันจะสามารถตอบได้ยาวๆ เลย

🔹 ตัว Advance ไม่สามารถคุยต่อจากบทสนทนาที่คุยกับตัว Standard หรือจากการคุยด้วยข้อความมาก่อนหน้านั้นได้

🔹การถอดข้อความอาจไม่ตรงกับเสียงที่พูดจริงเสมอไป บางครั้งพูดไทยไป แต่มันถอดออกมาเป็นอังกฤษเฉยใครอยากลองฟังเปรียบเทียบระหว่าง Standard กับ Advance ต่างกันอย่างไร สามารถดูคลิปที่แนบมาได้เลย เราพยามจำลองสถานะการณ์ให้ทั้งคู่พูดเหมือนกัน แล้วตัดออกมาให้ลองชม อย่าลืมเปิดเสียงละ 🎧

⚙️ ถ้าจำไม่ผิดเสียงที่ใช้คือเสียง Amber นะ ⚙️ TTS ก็คือตัว Standard และ GPT-4o Voice ก็คือตัว Advance

ตัวอย่างเสียง

การพจญภัยของเลล่า

ทำไมแอปเปิ้ลสีแดง

ถ้าใครอ่านจบแล้วจะไปลองเล่น แต่ไม่ได้อยากให้เอาเสียงเราไปเทรน อย่าลืมไปปิด "Improve voice for everyone" ในแอป ChatGPT ละ

สุดท้ายนี้ ในมุมมองเดฟคนหนึ่ง Advanced Voice อาจดูเหมือนแค่ของเล่นคุยเล่นแก้เหงาหรือเครื่องมือฝึกภาษา แต่แท้จริงแล้วดูมีศักยภาพมากกว่านั้น แค่ตอนนี้ถูกจำกัดความสามารถไว้แค่ที่เห็นถ้าเราเอาไปต่อยอดกับอย่างอื่นได้ หรือสอนความรู้เพิ่มให้ได้ เราอาจได้เห็นโลกที่ใช้ Advanced Voice เป็นผู้ช่วยจริงๆ ที่เราไม่ต้องสั่งงานแบบตรงๆ แต่แค่เล่าสิ่งที่อยากทำคร่าวๆ ให้ AI ตีความเองได้

นอกจากนี้ยังเอามาช่วยงานได้ เช่น ลดภาระ call center ให้เจ้าหน้าที่ไม่ต้องคุยกับลูกค้าโดยตรง แต่ไปโฟกัสเรื่องแก้ปัญหาแทน ลูกค้าก็ไม่ต้องกดเลือกสายให้วุ่นวาย หรือให้ AI ช่วยคัดกรองอารมณ์ผู้พูด แล้วสรุปเป็นปัญหาเลย ช่วยให้เจ้าหน้าที่ทำงานผิดพลาดน้อยลง ยังมี use case น่าสนใจอีกเพียบ แต่ขอจบแค่นี้ก่อน

และแล้วก่อนที่เราจะกดโพส

ก็มาเห็น Introducing the Realtime API 👀

ที่พึ่งเปิดตัวเมื่อวันที่ 1 ตุลาคมที่ผ่านมา

https://openai.com/index/introducing-the-realtime-api

ใช่แล้ว นี่คือช่องทางให้เราเอา Advanced Voice ไปต่อยอดในแบบของเราเองได้ แต่ตอนนี้ดูเหมือนจะยังจำกัดการเข้าถึงอยู่ อาจจะเพราะเป็นลูกค้า Tier ต่ำไป 😢 เข้ามาช่วยสมทบทุนกันได้ ถ้ามาแล้วเราจะมาอัพเดทกันใหม่ในโพสหน้า ไว้เจอกัน 👋