آزمایش «باهوش‌ترین در جهان» Grok3

گروه AIPU WATON (1)

مقدمه

آیا فکر می‌کنید Grok3 «نقطه پایانی» مدل‌های از پیش آموزش‌دیده خواهد بود؟

ایلان ماسک و تیم xAI رسماً آخرین نسخه Grok، Grok3، را طی یک پخش زنده راه‌اندازی کردند. پیش از این رویداد، حجم قابل توجهی از اطلاعات مرتبط، همراه با تبلیغات 24 ساعته ماسک، انتظارات جهانی را برای Grok3 به سطوح بی‌سابقه‌ای رساند. تنها یک هفته پیش، ماسک با اطمینان در یک پخش زنده ضمن اظهار نظر در مورد DeepSeek R1 اظهار داشت: "xAI در شرف راه‌اندازی یک مدل هوش مصنوعی بهتر است." از داده‌های ارائه شده به صورت زنده، گزارش شده است که Grok3 از تمام مدل‌های جریان اصلی فعلی در معیارهای ریاضیات، علوم و برنامه‌نویسی پیشی گرفته است، به طوری که ماسک حتی ادعا می‌کند که Grok3 برای وظایف محاسباتی مربوط به ماموریت‌های مریخ SpaceX استفاده خواهد شد و پیش‌بینی می‌کند که "ظرف سه سال به دستاوردهایی در سطح جایزه نوبل" دست یابد. با این حال، اینها در حال حاضر فقط ادعاهای ماسک هستند. پس از راه‌اندازی، من آخرین نسخه بتا Grok3 را آزمایش کردم و سوال ترفند کلاسیک را برای مدل‌های بزرگ مطرح کردم: "کدام بزرگتر است، 9.11 یا 9.9؟" متأسفانه، بدون هیچ گونه توصیف یا علامت گذاری، به اصطلاح باهوش ترین Grok3 هنوز هم نتوانست به این سوال به درستی پاسخ دهد. Grok3 نتوانست معنای سوال را به طور دقیق تشخیص دهد.

 

این آزمون به سرعت توجه بسیاری از دوستان را به خود جلب کرد و اتفاقاً آزمون‌های مشابه مختلفی در خارج از کشور نشان داده‌اند که Grok3 در سوالات فیزیک/ریاضی پایه مانند «کدام توپ اول از برج کج پیزا می‌افتد؟» مشکل دارد، بنابراین، به طنز به عنوان «نابغی که تمایلی به پاسخ دادن به سوالات ساده ندارد» برچسب‌گذاری شده است.

۶۴۰

گروک۳ خوبه، اما از آر۱ یا او۱-پرو بهتر نیست.

Grok3 در عمل در بسیاری از آزمون‌های دانش عمومی «شکست» خورد. در طول رویداد رونمایی از xAI، ماسک استفاده از Grok3 را برای تجزیه و تحلیل کلاس‌های شخصیت و جلوه‌های بازی Path of Exile 2، که ادعا می‌کرد اغلب آن را بازی می‌کند، نشان داد، اما بیشتر پاسخ‌های ارائه شده توسط Grok3 نادرست بود. ماسک در طول پخش زنده متوجه این مشکل آشکار نشد.

 

این اشتباه نه تنها شواهد بیشتری را برای کاربران اینترنتی خارج از کشور فراهم کرد تا ماسک را به خاطر «یافتن جایگزینی» در بازی مسخره کنند، بلکه نگرانی‌های قابل توجهی را در مورد قابلیت اطمینان Grok3 در کاربردهای عملی ایجاد کرد. برای چنین «نبوغی»، صرف نظر از قابلیت‌های واقعی آن، قابلیت اطمینان آن در سناریوهای کاربردی بسیار پیچیده، مانند وظایف اکتشاف مریخ، همچنان مورد تردید است.

 

در حال حاضر، بسیاری از آزمایش‌کنندگانی که هفته‌ها پیش به Grok3 دسترسی پیدا کردند و کسانی که دیروز قابلیت‌های مدل را برای چند ساعت آزمایش کردند، همگی به یک نتیجه مشترک اشاره می‌کنند: «Grok3 خوب است، اما از R1 یا o1-Pro بهتر نیست.»

۶۴۰ (۱)

نگاهی انتقادی به «مختل کردن انویدیا»

در پاورپوینت رسمی ارائه شده در طول انتشار، نشان داده شد که Grok3 در Chatbot Arena «بسیار جلوتر» است، اما این پاورپوینت به طرز هوشمندانه‌ای از تکنیک‌های گرافیکی استفاده کرده است: محور عمودی در جدول امتیازات فقط نتایج را در محدوده امتیاز ۱۴۰۰-۱۳۰۰ فهرست کرده است، و باعث می‌شود اختلاف ۱٪ اولیه در نتایج آزمون در این ارائه بسیار قابل توجه به نظر برسد.

۶۴۰

در نتایج واقعی امتیازدهی مدل، Grok3 تنها ۱ تا ۲ درصد از DeepSeek R1 و GPT-4.0 جلوتر است، که با تجربیات بسیاری از کاربران در آزمایش‌های عملی که «هیچ تفاوت قابل توجهی» پیدا نکردند، مطابقت دارد. Grok3 تنها ۱ تا ۲ درصد از جانشینان خود پیشی می‌گیرد.

۶۴۰

اگرچه Grok3 امتیاز بالاتری نسبت به تمام مدل‌های آزمایش‌شده‌ی عمومی فعلی کسب کرده است، اما بسیاری این موضوع را جدی نمی‌گیرند: گذشته از همه اینها، xAI قبلاً به دلیل «دستکاری امتیاز» در دوران Grok2 مورد انتقاد قرار گرفته بود. از آنجایی که جدول امتیازات، سبک طول پاسخ را جریمه کرد، امتیازها به شدت کاهش یافت و باعث شد که افراد داخلی صنعت اغلب از پدیده‌ی «امتیاز بالا اما توانایی پایین» انتقاد کنند.

 

چه از طریق «دستکاری» جدول امتیازات و چه از طریق ترفندهای طراحی در تصاویر، آنها xAI و وسواس ماسک را با مفهوم «رهبری در بین رقبا» در قابلیت‌های مدل آشکار می‌کنند. ماسک هزینه گزافی را برای این حاشیه‌ها پرداخت کرد: در طول راه‌اندازی، او با افتخار از استفاده از ۲۰۰۰۰۰ پردازنده گرافیکی H100 (که در طول پخش زنده ادعا کرد «بیش از ۱۰۰۰۰۰») و دستیابی به زمان آموزش کل ۲۰۰ میلیون ساعت خبر داد. این امر باعث شد برخی باور کنند که این نشان دهنده یک مزیت قابل توجه دیگر برای صنعت پردازنده‌های گرافیکی است و تأثیر DeepSeek بر این بخش را «احمقانه» بدانند. نکته قابل توجه این است که برخی معتقدند که قدرت محاسباتی صرف، آینده آموزش مدل خواهد بود.

 

با این حال، برخی از کاربران اینترنتی مصرف ۲۰۰۰ پردازنده گرافیکی H800 را طی دو ماه برای تولید DeepSeek V3 مقایسه کردند و محاسبه کردند که مصرف واقعی برق آموزشی Grok3، ۲۶۳ برابر V3 است. فاصله بین DeepSeek V3 که ۱۴۰۲ امتیاز کسب کرد و Grok3 کمی کمتر از ۱۰۰ امتیاز است. پس از انتشار این داده‌ها، بسیاری به سرعت متوجه شدند که در پشت عنوان Grok3 به عنوان "قوی‌ترین جهان" یک اثر سودمندی حاشیه‌ای آشکار نهفته است - منطق مدل‌های بزرگتر که عملکرد قوی‌تری ایجاد می‌کنند، شروع به نشان دادن بازده نزولی کرده است.

640 (2)

حتی با وجود «امتیاز بالا اما توانایی پایین»، Grok2 مقادیر زیادی از داده‌های شخص ثالث با کیفیت بالا از پلتفرم X (توییتر) برای پشتیبانی از استفاده داشت. با این حال، در آموزش Grok3، xAI به طور طبیعی با «سقفی» که OpenAI در حال حاضر با آن مواجه است، مواجه شد - فقدان داده‌های آموزشی ممتاز به سرعت سودمندی حاشیه‌ای قابلیت‌های مدل را آشکار می‌کند.

 

توسعه‌دهندگان Grok3 و ماسک احتمالاً اولین کسانی هستند که این حقایق را عمیقاً درک و شناسایی می‌کنند، به همین دلیل است که ماسک دائماً در رسانه‌های اجتماعی اشاره می‌کند که نسخه‌ای که کاربران اکنون تجربه می‌کنند «هنوز فقط نسخه بتا» است و «نسخه کامل در ماه‌های آینده منتشر خواهد شد.» ماسک نقش مدیر محصول Grok3 را بر عهده گرفته است و به کاربران پیشنهاد می‌دهد که در بخش نظرات، بازخورد خود را در مورد مسائل مختلف ارائه دهند. او ممکن است پرفالوورترین مدیر محصول روی زمین باشد.

 

با این حال، بدون شک عملکرد Grok3 در عرض یک روز، زنگ خطر را برای کسانی که امیدوار بودند برای آموزش مدل‌های بزرگ و قوی‌تر به «عضلات محاسباتی عظیم» تکیه کنند، به صدا درآورد: بر اساس اطلاعات عمومی مایکروسافت، GPT-4 از OpenAI دارای اندازه پارامتر ۱.۸ تریلیون پارامتر است که بیش از ده برابر GPT-3 است. شایعات حاکی از آن است که اندازه پارامتر GPT-4.5 ممکن است حتی بزرگتر باشد.

 

با افزایش اندازه پارامترهای مدل، هزینه‌های آموزش نیز به شدت افزایش می‌یابد. با حضور Grok3، رقبایی مانند GPT-4.5 و دیگران که مایل به ادامه «هزینه کردن» برای دستیابی به عملکرد بهتر مدل از طریق اندازه پارامتر هستند، باید سقفی را که اکنون به وضوح در معرض دید است در نظر بگیرند و در مورد چگونگی غلبه بر آن فکر کنند. در حال حاضر، ایلیا ساتسکور، دانشمند ارشد سابق OpenAI، پیش از این در دسامبر گذشته اظهار داشت: «پیش‌آموزشی که با آن آشنا هستیم به پایان خواهد رسید»، که در بحث‌ها دوباره مطرح شده و تلاش‌هایی را برای یافتن مسیر واقعی برای آموزش مدل‌های بزرگ برانگیخته است.

640 (3)

دیدگاه ایلیا زنگ خطر را در صنعت به صدا درآورده است. او به طور دقیق اتمام قریب‌الوقوع داده‌های جدید قابل دسترسی را پیش‌بینی کرد که منجر به وضعیتی می‌شود که عملکرد نمی‌تواند از طریق اکتساب داده‌ها همچنان بهبود یابد و آن را به اتمام سوخت‌های فسیلی تشبیه کرد. او اظهار داشت که «مانند نفت، محتوای تولید شده توسط انسان در اینترنت یک منبع محدود است.» در پیش‌بینی‌های ساتسکور، نسل بعدی مدل‌ها، پس از پیش‌آموزش، دارای «استقلال واقعی» و قابلیت‌های استدلال «مشابه مغز انسان» خواهند بود.

 

برخلاف مدل‌های از پیش آموزش‌دیده امروزی که عمدتاً به تطبیق محتوا (بر اساس محتوای مدل قبلاً آموخته‌شده) متکی هستند، سیستم‌های هوش مصنوعی آینده قادر به یادگیری و ایجاد روش‌هایی برای حل مسائل به شیوه‌ای مشابه «تفکر» مغز انسان خواهند بود. یک انسان می‌تواند تنها با ادبیات حرفه‌ای اولیه به مهارت اساسی در یک موضوع دست یابد، در حالی که یک مدل بزرگ هوش مصنوعی برای دستیابی به ابتدایی‌ترین سطح کارایی، به میلیون‌ها نقطه داده نیاز دارد. حتی زمانی که عبارت‌بندی کمی تغییر کند، ممکن است این سؤالات اساسی به درستی درک نشوند، که نشان می‌دهد مدل واقعاً از نظر هوش بهبود نیافته است: سؤالات اساسی اما غیرقابل حل ذکر شده در ابتدای مقاله، نمونه بارزی از این پدیده هستند.

微信图片_20240614024031.jpg1

نتیجه‌گیری

با این حال، فراتر از زور و اجبار، اگر Grok3 واقعاً موفق شود به صنعت نشان دهد که «مدل‌های از پیش آموزش‌دیده به پایان خود نزدیک می‌شوند»، پیامدهای قابل توجهی برای این حوزه خواهد داشت.

شاید پس از فروکش کردن تدریجی هیاهوی پیرامون Grok3، شاهد موارد بیشتری مانند مثال فی-فی لی در مورد «تنظیم مدل‌های با کارایی بالا روی یک مجموعه داده خاص فقط با 50 دلار» باشیم که در نهایت به کشف مسیر واقعی به سوی هوش مصنوعی عمومی منجر می‌شود.

راهکار کابل ELV را بیابید

کابل‌های کنترل

برای کابل‌های BMS، BUS، صنعتی و ابزار دقیق.

سیستم کابل کشی ساخت یافته

شبکه و داده، کابل فیبر نوری، پچ کورد، ماژول‌ها، صفحه رویی

بررسی نمایشگاه‌ها و رویدادهای ۲۰۲۴

۱۶ تا ۱۸ آوریل ۲۰۲۴، نمایشگاه انرژی خاورمیانه در دبی

۱۶ تا ۱۸ آوریل ۲۰۲۴، نمایشگاه سکوریکا در مسکو

۹ مه ۲۰۲۴، رویداد رونمایی از محصولات و فناوری‌های جدید در شانگهای

۲۲ تا ۲۵ اکتبر ۲۰۲۴، امنیت چین در پکن

۱۹-۲۰ نوامبر ۲۰۲۴، دنیای متصل، عربستان سعودی


زمان ارسال: ۱۹ فوریه ۲۰۲۵