ลองเล่นกับ OpenAI Realtime API ขั้นกว่าของ Advance Voice Mode!

learning
Published 2024-10-07
POST

ลองเล่นกับ OpenAI Realtime API ขั้นกว่าของ Advance Voice Mode!

สืบเนื่องจากโพสก่อน เราได้แนะนำ Advance Voice Mode ใน App ChatGPT ที่ทำให้การสนทนาลื่นไหลราวกับคุยกับคนจริงๆ แต่ก็มีข้อจำกัดหลักเรื่องข้อมูลในความจำของโมเดล GPT-4o และการสื่อสารด้วยเสียงเท่านั้น

ล่าสุด OpenAI ปล่อย API ให้นักพัฒนาต่อยอดแล้วเมื่อ 1 ต.ค. 67 เราลองเล่นมาแล้วพบประเด็นน่าสนใจดังนี้:

🔹 ตั้ง instructions หรือ System Prompt กำหนดทิศทางการสนทนา หรือกำหนดบุคลิกของ AI ได้ 🔹 ให้ AI หยิบ tools หรือเครื่องมือ ดึงข้อมูลเพิ่มเติมได้ คล้ายกับเวลาเราใช้ Chat Completion แล้ว AI เสริช Google มาเสริมคำตอบให้ 🔍 🔹 ส่งได้ทั้งข้อความ 📝 และเสียง 🔊 🔹 การถอดข้อความจากเสียงใช้ Whisper-1 แยกจากส่วน AI ตอบคำถาม ดังนั้นจึงไม่แปลกที่ข้อความอาจจะถอดออกมาผิด แต่ AI ยังเข้าใจเราถูกต้องอยู่ 🔹 เลือกปิดการถอดเสียงเป็นข้อความได้ 🔹 การคุยแทรก หรือการตรวจเช็คจังหวะการพูด(VAD) สามารถเลือกได้ว่าจะให้ฝั่ง OpenAI เช็คให้ หรือเราเช็คเอง แต่มีข้อควรระวังว่า ถ้าให้ OpenAI เช็คให้ เท่ากับการส่งเสียงเราไปตลอดเวลา และจะถูกคิดเงินแม้เงียบฟังอยู่ 🔹 ราคา 💰 ยังสูงอยู่ ตอนโพสนี้อยู่ที่ $5.00 / 1M input tokens และ $20.00 / 1M output tokens ถ้าคิดเป็นการใช้งานจริงๆ ก็ประมาณเสียงเข้านาทีละ 2 บาท เสียงออกนาทีละ 8 บาท ต้องปรับใช้กันดีๆ 🔹 API นี้ใช้ผ่าน WebSocket เท่านั้น อาจจะมีความยุ่งยากในการเซ็ต 🔹 API นี้เป็น stateful ดังนั้นตลอดช่วงการสนทนา ไม่ต้องส่งข้อความย้อนหลังเหมือนเวลาใช้กับ Chat Completion 🔹 API สามารถเลือกตอบเฉพาะข้อความได้ เหมือนกับ Chat Completion แต่ถ้าอยากใช้ Speech to Speech ต้องใช้ผ่าน Realtime API ตัวนี้เท่านั้น

รอบนี้เราก็มีตัวอย่างอีกเช่นเคย หยิบโค๊ดตัวอย่างของ OpenAI มายำ แล้วมาลองให้ตามในวีดีโอ

ในตัวอย่างนี้ AI จะตอบคำถามเกี่ยวกับสภาพอากาศ เมื่อเราระบุสถานที่ AI จะดึงข้อมูลล่าสุดมาตอบ วีดีโอจะเริ่มด้วยข้อความทักทาย ตามด้วยคำถามด้วยเสียง AI ตอบกลับเร็วมาก ใช้เวลาเพียง 2 วินาทีในการประมวลผลและตอบ แต่จริงๆ แล้ว AI ใช้เวลาตัดสินใจใช้เครื่องมือแค่ 0.3 วินาที และแปลงผลลัพธ์เป็นเสียงอีก 0.3 วินาที ส่วนที่เหลือคือเวลารอเครื่องมือตอบกลับ

การคุยสั้นๆครั้งนี้ 30 วินาที เสียเงินไป 6 บาท ดูมีโอกาสต่อยอดได้ แต่ต้องระวังให้ดี ไม่งั้นค่าใช้จ่ายพุ่งแน่นอน 💸

สนใจหรืออยากรู้อะไรเพิ่มไหม? ทักมาคุยกันในคอมเมนต์หรือแชทได้เลยนะ!