دوشنبه , ۲۴ آذر ۱۴۰۴ 2025 - 12 - 15 ساعت :
» اخبار تکنولوژی » هوش مصنوعی ایلان ماسک قوی‌تر است یا گوگل؟
هوش مصنوعی ایلان ماسک قوی‌تر است یا گوگل؟
اخبار تکنولوژی

هوش مصنوعی ایلان ماسک قوی‌تر است یا گوگل؟

1404/09/12 ۰

به گزارش وبسایت اویم شاهانه، رقابت بین دو مدل هوش مصنوعی، Gemini ۳ و Grok ۴.۱، در چالش LMArena، که یک چالش است که مدل‌های هوش مصنوعی را بر اساس رقابت‌های واقعی کاربران رتبه‌بندی می‌کند، در حال حاضر در حال انجام است. این چالش توسط LMSYS، همان تیم پشت Chatbot Arena، اداره می‌شود و اکنون به یکی از قابل‌اعتمادترین روش‌ها برای فهم عملکرد واقعی مدل‌ها تبدیل شده است.

در این چالش، Gemini ۳ و Grok ۴.۱ در ۹ بخش متفاوت، از معماهای منطقی و کدنویسی گرفته تا نویسندگی خلاقانه، مقابل هم قرار گرفته‌اند تا مشخص شود که هر کدام چگونه با درخواست‌های کاربران از دستیارهای هوش مصنوعی برخورد می‌کنند. نتایج این چالش، تضادهای جالبی را در سبک، عمق و قابل اعتماد بودن این دو مدل نشان می‌دهد.

در بخش اول، استدلال، Gemini ۳.۰ به‌طور صریح اصل ریاضی مسئله را توضیح داد و پیشنهاد داد معمای دیگری ارائه کند. اما Grok ۴.۱ لحن محاوره‌ای‌تری داشت و توضیح روان‌تری ارائه داد. در آخر، Grok به‌دلیل تأکید بهتر بر «نرخ‌های غیریکسان سوختن» و اینکه چگونه این ناهمگونی در روش اندازه‌گیری خنثی می‌شود، برنده این بخش شد.

در بخش دوم، منطق، Gemini ۳.۰ از تیترهای مشخص استفاده کرد و تناقض منطقی را با یک ساختار if/then شفاف توضیح داد. اما Grok ۴.۱ زمینه‌ی تاریخی اضافه کرد و با زبانی قاطع گفت چنین سلمانی‌ای اصلاً نمی‌تواند وجود داشته باشد و درباره‌ی پیامدهای آن با جدیت بیشتری صحبت کرد. بنابراین، برنده این بخش Gemini ۳.۰ شد به این خاطر که پاسخی پخته‌تر داد.

در بخش سوم، کدنویسی، Gemini ۳.۰ پاسخی آموزشی‌تر ارائه داد و توضیحاتی دقیق همراه با بررسی کامل edge case‌ها مطرح کرد. اما Grok ۴.۱ در این بخش هم با تنوع ورودی‌ها در دنیای واقعی بهتر کنار آمد و بدون پیچیده‌سازی اضافی وظیفه را انجام داد. در نهایت، برنده Gemini به‌خاطر گزارش‌دهی خطای بهتر، پشتیبانی بهتر در دیباگ و کدی تمیزتر و قابل‌نگهداری‌تر بود.

در بخش چهارم، دیباگ، Gemini ۳.۰ مستقیماً به سراغ اصل موضوع رفت و فوراً نبودِ حالت پایه را یادآوری کرد. راه‌حل حداقلی را شفاف ارائه داد و به ناکارآمدی بازگشتِ ساده اشاره کرد. اما Grok ۴.۱ دقیقاً نشان داد که بازگشت بی‌نهایت چگونه رخ می‌دهد و چند نسخه‌ی اصلاح‌شده از جمله اعتبارسنجی ورودی ارائه کرد. بنابراین، برنده این بخش نیز به‌خاطر پاسخی عملی‌تر و توضیحی آموزشی‌تر، Gemini ۳.۰ بود.

در بخش پنجم، نویسندگی خلاق، Gemini ۳.۰ داستانی با دیدگاهی هوشمندانه و پیچ‌وتاب طنزآلود ارائه داد. اما Grok ۴.۱ روایت پیچیده‌تری نوشت و پیچش نهایی را از قهرمان به ضدقهرمان منتقل کرد. نتیجه‌ای دراماتیک‌تر و تأمل‌برانگیزتر؛ پس می‌توان گفت برنده این بخش به‌خاطر ارائه‌ی یک پایان واقعاً تکان‌دهنده که باعث می‌شود خواننده کل روایت را دوباره در ذهن مرور کند، Grok است.

در بخش ششم، درک ظریف و دقیق، Gemini ۳.۰ به‌طور مستقیم سراغ مسائل مشخص در سیستم‌های فعلی رفاهی رفت و در توضیح پویایی‌های تورمی و بازار کار عملکرد بسیار خوبی داشت. اما Grok ۴.۱ شواهد تجربی از آزمایش‌های واقعی ارائه کرد و به مباحث مربوط به «کرامت انسانی» و «مالکیت مشترک» نیز پرداخت. در نهایت، به‌دلیل ساختار بهتر و دامنه‌ی گسترده‌تر استدلال‌ها، Gemini برنده شد.

در بخش هفتم، پیروی از دستور، Gemini ۳.۰ فهرستی متنوع ارائه کرد که ترکیبی از حیوانات بزرگ و کوچک بود. اما Grok ۴.۱ هم فهرستی مطابق شروط ارائه کرد، اما حیوانات انتخابی کمی معمول‌تر بودند. اما در نهایت، هر دو در

به این نوشته امتیاز بدهید!

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

×