การอัปเกรดล่าสุดของ OpenAI ช่วยให้ผู้ใช้สามารถสตรีมสดด้วย ChatGPT ได้

ในฐานะนักลงทุน crypto ที่มีประสบการณ์และผู้ที่ชื่นชอบเทคโนโลยี ฉันต้องยอมรับว่าการประกาศล่าสุดจาก OpenAI เกี่ยวกับโมเดล AI ล่าสุดของพวกเขา GPT-4o ทำให้ฉันหลงใหลอย่างยิ่ง ความสามารถของโมเดล AI ในการประมวลผลอินพุตข้อความ เสียง และรูปภาพแบบเรียลไทม์ถือเป็นตัวเปลี่ยนเกมอย่างแท้จริง


OpenAI ผู้สร้าง ChatGPT ได้เปิดตัวโมเดลปัญญาประดิษฐ์ (AI) ใหม่ล่าสุดในชื่อ GPT-4o AI ขั้นสูงนี้ได้รับการออกแบบเพื่อให้มีส่วนร่วมในการแลกเปลี่ยนการสนทนามากขึ้นและเลียนแบบการโต้ตอบของมนุษย์ด้วยความแม่นยำยิ่งขึ้น นอกจากนี้ ยังมีความสามารถในการประมวลผลและตอบสนองต่ออินพุตเสียงและวิดีโอของผู้ใช้แบบเรียลไทม์

GPT-4 Omni แสดงให้เห็นผ่านชุดการเปิดตัวของบริษัท โดยช่วยเหลือผู้ใช้ในอนาคตในรูปแบบต่างๆ ตัวอย่างเช่น ช่วยในการเตรียมตัวสัมภาษณ์โดยทำให้ผู้ใช้ดูเรียบร้อยและพร้อมสำหรับการสัมภาษณ์ นอกจากนี้ยังอำนวยความสะดวกในการติดต่อฝ่ายสนับสนุนลูกค้าเพื่อขอเปลี่ยน iPhone ใหม่

ในการสาธิตต่างๆ ChatGPT ได้รับการแสดงให้เห็นว่ามีความสามารถในการแลกเปลี่ยนการเล่นคำที่เป็นมิตรกับพ่อ แปลบทสนทนาสองภาษาในสถานการณ์ในชีวิตจริงได้ทันที ทำหน้าที่เป็นผู้ชี้ขาดที่เป็นกลางสำหรับเกมเป่ายิ้งฉุบในหมู่ผู้ใช้สองคน และใช้การเสียดสีเมื่อถูกยั่วยุ นอกจากนี้ ยังมีนิทรรศการหนึ่งที่นำเสนอปฏิสัมพันธ์ระหว่าง ChatGPT และลูกสุนัขตัวใหม่ของผู้ใช้เป็นครั้งแรก

“สวัสดี Bowser! คุณเป็นแค่สิ่งเล็กๆ น้อยๆ ที่น่ารักที่สุดใช่ไหม?” แชทบอทอุทาน

สวัสดี ฉันตื่นเต้นที่จะแนะนำให้คุณรู้จักกับ GPT-40 ซึ่งเป็นรุ่นขั้นสูงล่าสุดของเรา ในฐานะนักวิเคราะห์ ผมรู้สึกตื่นเต้นที่จะแบ่งปันว่าเรือธงใหม่ของเรานี้สามารถประมวลผลข้อมูลจากเสียง การมองเห็น และข้อความพร้อมกันแบบเรียลไทม์ ตั้งแต่วันนี้เป็นต้นไป การป้อนข้อความและรูปภาพจะพร้อมใช้งานผ่าน API และ ChatGPT ของเรา ในอนาคตอันใกล้นี้ ความสามารถด้านเสียงและวิดีโอจะถูกรวมเข้าด้วยกันเพื่อประสบการณ์ผู้ใช้ที่ครอบคลุมมากขึ้น

— OpenAI (@OpenAI) 13 พฤษภาคม 2024

ในฐานะนักลงทุน crypto ฉันอดไม่ได้ที่จะรู้สึกทึ่งเมื่อใช้เทคโนโลยี AI ขั้นสูง ราวกับว่าฉันได้ก้าวเข้าสู่ภาพยนตร์ไซไฟ – ความสามารถของเทคโนโลยีนี้ยังยากที่จะเชื่อ แม้ว่ามันจะเป็นความจริงที่จับต้องได้ก็ตาม Sam Altman ซีอีโอแสดงสิ่งนี้ไว้อย่างชัดเจนในบล็อกโพสต์ของเขาเมื่อวันที่ 13 พฤษภาคม

“การได้รับการตอบสนองในระดับมนุษย์และการแสดงออกกลายเป็นการเปลี่ยนแปลงครั้งใหญ่”

เมื่อวันที่ 13 พฤษภาคม OpenAI ได้เปิดตัวรูปแบบข้อความและรูปภาพเท่านั้น ฉบับสมบูรณ์มีกำหนดวางจำหน่ายในอนาคตอันใกล้นี้ โดยเพิ่มไว้ในโพสต์ล่าสุดบน X

ในฐานะนักวิจัยที่กำลังศึกษาโมเดลปัญญาประดิษฐ์ขั้นสูง ฉันสามารถบอกคุณได้ว่าผู้ใช้ ChatGPT ทุกคนคาดว่าจะสามารถเข้าถึง GPT-40 รวมถึงผู้ที่มีบัญชีฟรีด้วย การเข้าถึงนี้จะได้รับการอำนวยความสะดวกผ่าน Application Programming Interface (API) ของ ChatGPT

ฉันได้เรียนรู้จาก OpenAI ว่า “o” ใน GPT-4o แสดงถึงคำว่า “omni” ซึ่งแสดงถึงความก้าวหน้าไปสู่อินเทอร์เฟซคอมพิวเตอร์ระหว่างมนุษย์ที่เป็นธรรมชาติและสมจริงมากขึ้น

พบกับ GPT-40 นวัตกรรมล่าสุดของเรา ที่สามารถประมวลผลอินพุตข้อความ เสียง และวิดีโอแบบเรียลไทม์เพื่อการให้เหตุผลขั้นสูง ความเก่งกาจของมันทำให้น่าดึงดูดใจในการสำรวจ และแสดงถึงความก้าวหน้าไปสู่การโต้ตอบระหว่าง AI ของมนุษย์และแม้แต่ AI-AI ที่เหมือนจริงมากขึ้น

— Greg Brockman (@gdb) 13 พฤษภาคม 2024

ความสามารถของ GPT-4 ในการจัดการอินพุตข้อความ เสียง และรูปภาพไปพร้อมกันแสดงถึงการก้าวกระโดดที่สำคัญเมื่อเทียบกับเครื่องมือก่อนหน้าของ OpenAI เช่น ChatGPT-4 พูดง่ายๆ ก็คือ แม้ว่า ChatGPT-4 อาจประสบปัญหาในการจัดการงานหลายอย่างและสูญเสียข้อมูลอันมีค่าในกระบวนการนี้ แต่ GPT-4 ก็เชี่ยวชาญในการจัดการอินพุตทั้งสามประเภทพร้อมกัน

ในฐานะนักวิจัยที่กำลังศึกษาโมเดลภาษาขั้นสูง ฉันสามารถแบ่งปันได้ว่ามีรายงานว่า OpenAI อ้างว่า GPT-4 มีความเหนือกว่าในด้านการมองเห็นและเสียงเมื่อเปรียบเทียบกับรุ่นก่อนๆ การเพิ่มประสิทธิภาพนี้ครอบคลุมมากกว่าการป้อนข้อความ ทำให้สามารถระบุอารมณ์ของผู้ใช้และแม้แต่สัญญาณที่ละเอียดอ่อน เช่น รูปแบบการหายใจ

นอกจากนี้ยัง “เร็วกว่ามาก” และ “ถูกกว่า 50%” เมื่อเทียบกับ GPT-4 Turbo ใน API ของ OpenAI

จากข้อมูลของ OpenAI เทคโนโลยี AI ล่าสุดสามารถประมวลผลคำสั่งเสียงได้ในเวลาเพียง 2.3 วินาทีโดยเฉลี่ย และโดยทั่วไปเวลาตอบสนองนี้จะอยู่ที่ประมาณ 3.2 วินาที ซึ่งเป็นความเร็วที่เทียบได้กับการสนทนาของมนุษย์ปกติ

Sorry. No data so far.

2024-05-14 03:40