โมเดล AI โอเพ่นซอร์สใหม่ของ Nvidia เอาชนะ GPT-4o ในการวัดประสิทธิภาพ

ในฐานะนักวิจัยที่มีประสบการณ์และหลงใหลในปัญญาประดิษฐ์อย่างลึกซึ้ง ฉันพบว่าตัวเองรู้สึกทึ่งกับผลงานล่าสุดของ Nvidia นั่นคือ Llama-3.1-Nemotron-70B-Instruct หลังจากใช้เวลานับไม่ถ้วนในการพิจารณาโมเดล AI และความสามารถของพวกเขา ฉันสามารถพูดได้อย่างมั่นใจว่าการประกาศนี้ทำให้ฉันอยากรู้อยากเห็น

เมื่อวันที่ 15 ตุลาคม Nvidia ได้เปิดตัวโมเดลปัญญาประดิษฐ์ที่เป็นนวัตกรรมอย่างไม่เป็นทางการ มีการอ้างว่าโมเดลใหม่นี้มีประสิทธิภาพเหนือกว่าระบบ AI ระดับสูงสุดในปัจจุบัน เช่น GPT-4o และ Claude-3

จากโพสต์ที่แชร์โดยทีมนักพัฒนา Nvidia AI บนแพลตฟอร์มโซเชียลมีเดีย X.com ระบุว่าโมเดล Llama-3.1-Nemotron-70B-Instruct ปัจจุบันเป็นหนึ่งในโมเดลอันดับต้นๆ ใน Chatbot Arena ของ lmarena.AI

โมเดล AI โอเพ่นซอร์สใหม่ของ Nvidia เอาชนะ GPT-4o ในการวัดประสิทธิภาพ

นีโมตรอน

โดยพื้นฐานแล้ว Llama-3.1-Nemotron-70B-Instruct เป็นการดัดแปลงที่ได้รับการปรับปรุงจาก Llama-3.1-70B-Instruct แบบโอเพ่นซอร์ส ชื่อ “Nemotron” หมายถึงการมีส่วนร่วมของ Nvidia ในผลิตภัณฑ์ขั้นสุดท้าย

คอลเลกชัน “กลุ่มลามะ” ของ Meta ทำหน้าที่เป็นจุดเริ่มต้นฟรีสำหรับโปรแกรมเมอร์ ช่วยให้พวกเขาสามารถสร้างและขยายตามแบบจำลองได้

เมื่อพูดถึง Nemotron ทาง Nvidia ตัดสินใจที่จะก้าวขึ้นมาและสร้างระบบที่มีจุดมุ่งหมายเพื่อให้เหนือกว่าโมเดลที่เป็นที่รู้จักอย่าง ChatGPT ของ OpenAI และ Claude-3 ของ Anthropic

Nvidia เปลี่ยนโมเดล AI มาตรฐานของ Meta ให้เป็นหนึ่งในโมเดลที่ “มีประโยชน์มากที่สุด” ทั่วโลกโดยใช้ชุดข้อมูลที่ปรับแต่งเอง เทคนิคการปรับแต่งอย่างละเอียด และฮาร์ดแวร์ AI ที่ล้ำสมัย

โมเดล AI โอเพ่นซอร์สใหม่ของ Nvidia เอาชนะ GPT-4o ในการวัดประสิทธิภาพ

“ฉันถามคำถามการเขียนโค้ดสองสามข้อที่ฉันมักจะถามเพื่อเปรียบเทียบ LLM และได้รับคำตอบที่ดีที่สุดจากคำถามนี้ ฮ่าๆ อึศักดิ์สิทธิ์”

การเปรียบเทียบ

เมื่อต้องพิจารณาว่าโมเดล AI ใด “ดีที่สุด” ไม่มีวิธีการที่ชัดเจน ต่างจาก ตัวอย่างเช่น การวัดอุณหภูมิโดยรอบด้วยเทอร์โมมิเตอร์แบบปรอท ไม่มี “ความจริง” เดียวที่มีอยู่เมื่อพูดถึงประสิทธิภาพของโมเดล AI

ในฐานะนักวิเคราะห์ ฉันพบว่าการประเมินประสิทธิภาพของแบบจำลอง AI ในลักษณะที่เทียบได้กับการประเมินโดยมนุษย์เป็นสิ่งสำคัญ เพื่อให้บรรลุเป้าหมายนี้ ฉันใช้วิธีการทดสอบเปรียบเทียบ

ในฐานะนักวิจัยในสาขาปัญญาประดิษฐ์ ฉันมีส่วนร่วมในการฝึกฝนการเปรียบเทียบโมเดล AI กระบวนการนี้ประกอบด้วยการนำเสนอแบบจำลอง AI หลายแบบที่มีการสอบถาม งาน หรือปัญหาที่เหมือนกัน จากนั้นจึงประเมินประสิทธิภาพของการตอบสนองโดยการเปรียบเทียบ เนื่องจากการพิจารณาว่าสิ่งใดที่ก่อให้เกิดผลลัพธ์ที่เป็นประโยชน์อาจเป็นเรื่องส่วนตัวได้ โดยทั่วไปแล้วผู้ประเมินที่เป็นมนุษย์จึงถูกนำมาใช้เพื่อประเมินประสิทธิภาพของเครื่องจักรแต่ละเครื่องโดยไม่เปิดเผย

ดูเหมือนว่า Nvidia กำลังแนะนำว่าประสิทธิภาพของรุ่นใหม่นั้นเหนือกว่ารุ่นอย่าง GPT-4o และ Claude-3 ซึ่งปัจจุบันเป็นผู้นำในด้านนี้อย่างมาก

โมเดล AI โอเพ่นซอร์สใหม่ของ Nvidia เอาชนะ GPT-4o ในการวัดประสิทธิภาพ

รูปภาพแสดงการจัดอันดับสำหรับการทดสอบ “ยาก” ภายในกระดานผู้นำ Chatbot Arena โดยที่ Llama-3.1-Nemotron-70B-Instruct ของ Nvidia ไม่ได้แสดงไว้อย่างชัดเจน อย่างไรก็ตาม หากคำยืนยันของนักพัฒนาที่ว่าได้คะแนน 85 ในการทดสอบนี้ถูกต้อง ก็จะกลายเป็นรุ่นชั้นนำในหมวดหมู่เฉพาะนี้โดยค่าเริ่มต้น

ความน่าสนใจที่เกี่ยวข้องกับความสำเร็จนี้อาจเพิ่มมากขึ้นด้วยข้อเท็จจริงที่ว่า Llama-3.1-70B เป็นโมเดล AI แบบโอเพ่นซอร์สระดับกลางที่พัฒนาโดย Meta มี Llama-3.1 รุ่นที่มีขนาดใหญ่กว่าอย่างเห็นได้ชัด ซึ่งเป็นรุ่น 405B ซึ่งได้รับการปรับแต่งอย่างละเอียดโดยใช้พารามิเตอร์จำนวนมากขึ้น (โดยเฉพาะประมาณ 405 พันล้าน)

จากการเปรียบเทียบ GPT-4o คาดว่าจะได้รับการพัฒนาโดยมีพารามิเตอร์มากกว่าหนึ่งล้านล้านรายการ

Sorry. No data so far.

2024-10-17 20:21