هوش مصنوعی ایلان ماسک قویتر است یا گوگل؟
به گزارش وبسایت اویم شاهانه، رقابت بین دو مدل هوش مصنوعی، Gemini ۳ و Grok ۴.۱، در چالش LMArena، که یک چالش است که مدلهای هوش مصنوعی را بر اساس رقابتهای واقعی کاربران رتبهبندی میکند، در حال حاضر در حال انجام است. این چالش توسط LMSYS، همان تیم پشت Chatbot Arena، اداره میشود و اکنون به یکی از قابلاعتمادترین روشها برای فهم عملکرد واقعی مدلها تبدیل شده است.
در این چالش، Gemini ۳ و Grok ۴.۱ در ۹ بخش متفاوت، از معماهای منطقی و کدنویسی گرفته تا نویسندگی خلاقانه، مقابل هم قرار گرفتهاند تا مشخص شود که هر کدام چگونه با درخواستهای کاربران از دستیارهای هوش مصنوعی برخورد میکنند. نتایج این چالش، تضادهای جالبی را در سبک، عمق و قابل اعتماد بودن این دو مدل نشان میدهد.
در بخش اول، استدلال، Gemini ۳.۰ بهطور صریح اصل ریاضی مسئله را توضیح داد و پیشنهاد داد معمای دیگری ارائه کند. اما Grok ۴.۱ لحن محاورهایتری داشت و توضیح روانتری ارائه داد. در آخر، Grok بهدلیل تأکید بهتر بر «نرخهای غیریکسان سوختن» و اینکه چگونه این ناهمگونی در روش اندازهگیری خنثی میشود، برنده این بخش شد.
در بخش دوم، منطق، Gemini ۳.۰ از تیترهای مشخص استفاده کرد و تناقض منطقی را با یک ساختار if/then شفاف توضیح داد. اما Grok ۴.۱ زمینهی تاریخی اضافه کرد و با زبانی قاطع گفت چنین سلمانیای اصلاً نمیتواند وجود داشته باشد و دربارهی پیامدهای آن با جدیت بیشتری صحبت کرد. بنابراین، برنده این بخش Gemini ۳.۰ شد به این خاطر که پاسخی پختهتر داد.
در بخش سوم، کدنویسی، Gemini ۳.۰ پاسخی آموزشیتر ارائه داد و توضیحاتی دقیق همراه با بررسی کامل edge caseها مطرح کرد. اما Grok ۴.۱ در این بخش هم با تنوع ورودیها در دنیای واقعی بهتر کنار آمد و بدون پیچیدهسازی اضافی وظیفه را انجام داد. در نهایت، برنده Gemini بهخاطر گزارشدهی خطای بهتر، پشتیبانی بهتر در دیباگ و کدی تمیزتر و قابلنگهداریتر بود.
در بخش چهارم، دیباگ، Gemini ۳.۰ مستقیماً به سراغ اصل موضوع رفت و فوراً نبودِ حالت پایه را یادآوری کرد. راهحل حداقلی را شفاف ارائه داد و به ناکارآمدی بازگشتِ ساده اشاره کرد. اما Grok ۴.۱ دقیقاً نشان داد که بازگشت بینهایت چگونه رخ میدهد و چند نسخهی اصلاحشده از جمله اعتبارسنجی ورودی ارائه کرد. بنابراین، برنده این بخش نیز بهخاطر پاسخی عملیتر و توضیحی آموزشیتر، Gemini ۳.۰ بود.
در بخش پنجم، نویسندگی خلاق، Gemini ۳.۰ داستانی با دیدگاهی هوشمندانه و پیچوتاب طنزآلود ارائه داد. اما Grok ۴.۱ روایت پیچیدهتری نوشت و پیچش نهایی را از قهرمان به ضدقهرمان منتقل کرد. نتیجهای دراماتیکتر و تأملبرانگیزتر؛ پس میتوان گفت برنده این بخش بهخاطر ارائهی یک پایان واقعاً تکاندهنده که باعث میشود خواننده کل روایت را دوباره در ذهن مرور کند، Grok است.
در بخش ششم، درک ظریف و دقیق، Gemini ۳.۰ بهطور مستقیم سراغ مسائل مشخص در سیستمهای فعلی رفاهی رفت و در توضیح پویاییهای تورمی و بازار کار عملکرد بسیار خوبی داشت. اما Grok ۴.۱ شواهد تجربی از آزمایشهای واقعی ارائه کرد و به مباحث مربوط به «کرامت انسانی» و «مالکیت مشترک» نیز پرداخت. در نهایت، بهدلیل ساختار بهتر و دامنهی گستردهتر استدلالها، Gemini برنده شد.
در بخش هفتم، پیروی از دستور، Gemini ۳.۰ فهرستی متنوع ارائه کرد که ترکیبی از حیوانات بزرگ و کوچک بود. اما Grok ۴.۱ هم فهرستی مطابق شروط ارائه کرد، اما حیوانات انتخابی کمی معمولتر بودند. اما در نهایت، هر دو در

