طرح مفهومی هوش مصنوعی از جمنای ۳

ساخت ویندوز و فتوشاپ در چند ثانیه؛ شاهکار ترسناک هوش مصنوعی جدید گوگل

شنبه 8 آذر 1404
مطالعه 11 دقیقه
جمنای ۳، هوش مصنوعی جدید گوگل، می‌تواند تنها با یک دستور متنی، دسکتاپ ویندوز، مرورگر کروم و حتی یک نسخه کپی از فتوشاپ را برنامه‌نویسی و اجرا کند.
تبلیغات

تا همین چند ماه پیش، همه‌جا صحبت از این بود که گوگل از قافله‌ی هوش مصنوعی عقب مانده است و سوندار پیچای باید استعفا دهد. اما هفته‌ی گذشته،‌ گوگل با معرفی مدل هوش مصنوعی جمنای ۳ چنان گردوخاکی به پا کرد که حالا همه‌ی دنیا دوباره آن‌ها را به چشم غول بی‌رقیب همیشگی می‌بینند؛ شرکتی که همه چیز، از زیرساخت‌های عظیم و تراشه‌های اختصاصی TPU‌ گرفته تا بودجه‌ی بی‌پایان و دسترسی‌به میلیاردها کاربر، را با هم دارد؛ اما نتوانسته بود در رقابت هوش مصنوعی، به محبوبیت OpenAI برسد.

اما تنها چند روز پس از رونمایی جمنای ۳، یادداشتی داخلی از سم آلتمن، مدیرعامل OpenAI، به بیرون درز کرد که اعترافی تلخ در آن نهفته بود: اینکه گوگل بالاخره به گرد پای آن‌ها رسیده است و شرکتش روزهای سختی در پیش دارد.

خلاصه پادکستی

جمنای ۳، در چند روز اخیر با موجی از میم‌ها و تحلیل‌های مثبت، اینترنت را به تسخیر خودش درآورده است و باعث شد ارزش بازار آلفابت‌ به ۴ تریلیون دلار نزدیک شود.

برای مردم عادی، ChatGPT مساوی است با هوش مصنوعی. اما آیا با جمنای ۳، آنطور که بنچمارک‌ها و تحلیل‌گرها می‌گویند، کار رقبا تمام است؟

جمنای ۳ و آنتی‌گراویتی

گوگل، جمنای ۳ را «بهترین مدل جهان برای درک چندوجهی» و قدرتمندترین مدل این شرکت برای کدنویسی و انجام وظایف معرفی می‌کند که با ترکیب تمام قابلیت‌های قبلی، به کاربر اجازه می‌دهد «هر ایده‌ای را به واقعیت تبدیل کند».

به گفته‌ی گوگل، جمنای ۳ با پنجره‌ی متنی یک میلیون توکنی و خروجی متن تا ۶۴ هزار توکن، بسیار بهتر از قبل می‌تواند نیت و هدف درخواست کاربر را بفهمد، بنابراین با توضیحات کمتر، نتیجه‌ی بهتری می‌گیرد. دمیس هاسابیس، مدیرعامل گوگل دیپ‌مایند هم از جمنای ۳ به‌عنوان «گام بزرگ دیگری به سمت هوش مصنوعی انسان‌گونه (AGI)» یاد کرد.

جمنای ۳ فقط حرف نمی‌زند، «عمل» می‌کند

آنطور که نتایج آزمون‌های گوگل نشان می‌دهد، جمنای ۳ پرو در تمام بنچمارک‌های اصلی هوش مصنوعی، از نسخه‌ی ۲٫۵ پرو پیشی گرفته است؛ عملکردی در سطح دکترا دارد؛ آنچه را که «نیاز دارید بشنوید» می‌گوید و می‌تواند ویدیوها را تحلیل کند یا دست‌خط‌های قدیمی را بخواند.

علاوه‌براین، جمنای ۳ می‌تواند «عمل» کند؛ یعنی می‌تواند در تقویم بگردد، ایمیل بفرستد، کد بنویسد و آن را اجرا کند. برای مثال، می‌توانید به این مدل بگویید «یک بازی فضایی بساز که حس نوستالژیک دهه‌ی ۸۰ را داشته باشد» و هوش مصنوعی خودش جزییات فنی را برای رسیدن به آن حس پیاده‌سازی می‌کند.

آنتی‌گراویتی به صورت محلی روی سیستم اجرا می‌شود

درکنار جمنای ۳، نام پلتفرم جدید «گوگل آنتی‌گراویتی» هم بر سر زبان‌ها افتاده است؛ این پلتفرم مخصوص برنامه‌نویسان است که ظاهری شبیه محیط‌های کدنویسی آشنا دارد، اما برخلاف مدل‌های قبلی که فقط متن تولید می‌کردند، ایجنت‌های Antigravity به ویرایشگر کد، ترمینال و مرورگر دسترسی مستقیم دارند. این ایجنت‌ها همچنین می‌توانند خودشان، کد را تست و اجرا کنند تا مطمئن شوند که درست کار می‌کند.

نکته‌ی جالب‌توجه درباره‌ی آنتی‌گراویتی این است که برخلاف بسیاری از ابزارهای مشابه که تماما در فضای ابری اجرا می‌شوند، این پلتفرم به صورت محلی روی سیستم اجرا می‌شود، اما همچنان قدرتی خیره‌کننده دارد.

بنچمارک‌ها چه می‌گویند؟

نتایج بنچمارک‌های جمنای ۳ واقعا خیره‌کننده است. در آزمون «Humanity's Last Exam» که شامل سوالات بسیار دشوار چندرسانه‌ای است که توسط متخصصان خبره در حوزه‌های ریاضی و علوم طراحی شده‌اند، جمنای ۳ با کسب نمره‌ی ۳۷٫۵ درصد، رقیب نزدیک خود GPT 5.1 با امتیاز ۲۶٫۵ درصد را به‌راحتی کنار زد. نسخه‌ی پیشرفته‌تر این مدل، «Deep Think»، حتی فراتر رفت و نمره‌ی ۴۱ درصد را ثبت کرد.

یکی دیگر از معیارها، تست «ARC AGI 2» است که توانایی مدل را در یادگیری الگوهای جدید با کمترین داده می‌سنجد. در این آزمون، جمنای ۳ پرو نه‌تنها با دقت ۳۱٫۱ درصد، بالاترین نمره را در بین مدل‌های عمومی کسب کرد، بلکه این کار را با کمترین هزینه انجام داد (۴۹ سنت به ازای هر وظیفه).

شاید فکر کنید که بنچمارک‌های سنتی ریاضی دیگر اشباع شده‌اند و اکثر مدل‌ها، نمرات بالای ۹۰ درصد می‌گیرند. حق با شماست؛ در آزمون‌هایی مثل «GPQA Diamond» و «AIME 2025»، جمنای ۳ به‌ترتیب نمرات ۹۱٫۹ و ۹۵ درصد را کسب کرد (و با ابزار کدنویسی به ۱۰۰ درصد رسید). اما عیار واقعی در آزمون «Math Arena Apex» مشخص شد. این آزمون شامل سخت‌ترین مسائل المپیادهای اخیر است که هنوز توسط مدل‌ها حل نشده‌اند. درحالی که سایر مدل‌ها به‌سختی به دقت ۱ درصد می‌رسند، جمنای ۳ توانست ۲۳٫۴ درصد از مسائل را حل کند.

علاوه‌بر ریاضیات، توانایی این مدل در درک دنیای بصری نیز خیره‌کننده است. در بنچمارک «Screenspot Pro» که توانایی مدل در کار با رابط‌های گرافیکی کامپیوتر را می‌سنجد، جمنای ۳ به نمره‌ی ۷۲٫۷ درصد دست یافت، درحالی‌که مدل Claude، تنها ۳۶ درصد کسب کرد.

جمنای ۳ در ۱۹ مورد از ۲۰ بنچمارک اصلی، رتبه‌ اول را کسب کرد

به‌طور خلاصه، مدل جمنای ۳ در ۱۹ مورد از ۲۰ بنچمارک، رتبه‌ی اول را بین رقبا به دست آورده و فقط در آزمون «SWE-Bench Verified» که توانایی مدل را در حل مسائل واقعی مهندسی نرم‌افزار می‌سنجد، با اختلاف چند درصدی عقب افتاده است.

شوک در سیلیکون‌ولی؛ جهشی دیوانه‌کننده

به‌گفته‌ی لوگان کیلپاتریک، مدیر محصول دیپ‌مایند، جمنای ۳ بهترین میزان پذیرش در روز اول را بین تمام مدل‌های این شرکت داشته است.

پلتفرم LMArena که چیزی شبیه «بیلبورد هات ۱۰۰» برای رده‌بندی مدل‌های هوش مصنوعی است، بلافاصله شاهد صدرنشینی جمنای ۳ بود. وی-لین چیانگ، هم‌بنیان‌گذار LMArena به ورج گفت:

جمنای ۳ پرو در دسته‌بندی‌های شغلی شامل کدنویسی، ریاضیات و نوشتار خلاق پیشتاز است و در بسیاری از موارد، در قابلیت‌های کدنویسی عامل‌گرا از مدل‌های برتری مثل Claude 4.5 و GPT-5.1 فراتر رفته است.

مارک بنیوف، مدیرعامل شرکت سیلزفورس و یکی از سرسخت‌ترین حامیان ChatGPT، پس از مدت کوتاهی کار با جمنای ۳، اعلام کرد که قید چت‌بات شرکت OpenAI را زده است.

بنیوف در شبکه اجتماعی X نوشت: «باورکردنی نیست! من سه سال تمام هر روز از ChatGPT استفاده می‌کردم. اما الان فقط دو ساعت با جمنای ۳ کار کردم و دیگر به عقب برنمی‌گردم. این جهش دیوانه‌وار است؛ قدرت استدلال، سرعت، تصاویر، ویدیو...همه‌چیز دقیق‌تر و سریع‌تر شده. انگار دنیا دوباره تغییر کرده است.»

عرضه‌ی جمنای ۳ توجه رهبران سیلیکون‌ولی را هم به خود جلب کرد. سم آلتمن، در شبکه اجتماعی ایکس به گوگل تبریک گفت و نوشت: «تبریک به گوگل بابت جمنای ۳! مدل فوق‌العاده‌ای به نظر می‌رسد.»

یادداشت داخلی سم آلتمن: گوگل بالاخره به گرد پای ما رسید

آندره کارپاتی، یکی از هم‌بنیان‌گذاران OpenAI و مدیر سابق هوش مصنوعی تسلا، نیز در ایکس نوشت که «برداشت اولیه‌ی مثبتی» از این مدل داشته است. او جمنای ۳ را مدلی با «پتانسیل بالا برای استفاده‌ی روزمره» و «قطعا یک مدل زبانی بزرگ درجه یک» توصیف کرد.

اما در پسِ این تعریف و تمجیدهای عمومی، نشانه‌هایی از نگرانی در OpenAI به چشم می‌خورد. در یک یادداشت داخلی که پیش از انتشار جمنای ۳ نوشته شده است، آلتمن به کارکنان خود هشدار داده بود که انتظار «جو سنگین و شرایط سختی» را داشته باشند و افزود: «طبق تمام شواهد، گوگل اخیرا عملکرد فوق‌العاده‌ای داشته است.» او با اشاره به اینکه پیشرفت گوگل ممکن است «چالش‌های اقتصادی موقتی برای شرکت ما ایجاد کند»، تأکید کرد که OpenAI «به‌سرعت در حال جبران فاصله است».

ساخت ویندوز ۱۱ و فتوشاپ با جمنای ۳

عملکرد جمنای ۳ در بنچمارک‌ها درخشان بود، اما در کاربردهای واقعی چطور؟

براساس آزمایش AI Search، جمنای ۳ توانست با موفقیت از پس اجرای این درخواست برآید: «یک نسخه‌ی کپی از دسکتاپ ویندوز ۱۱ بساز. از تصویر پس‌زمینه‌ی اصلی استفاده کن و آیکون‌های نرم‌افزارهای ورد، پینت، ماشین‌حساب و کروم را روی آن قرار بده. همه‌ی این برنامه‌ها باید کار کنند.» ما هم همین درخواست را با ابزار Canvas جمنای ۳ امتحان کردیم و نتیجه‌ی کم‌وبیش یکسانی گرفتیم.

در تست AI Search، آنچه روی صفحه ظاهر شد، یک دسکتاپ ویندوز ۱۱ تمام‌عیار در قالب یک فایل HTML مستقل بود. وقتی روی آیکون ورد کلیک می‌کنید، یک ویرایشگر متن باز می‌شود که واقعا کار می‌کند. می‌توانید در این محیط تایپ کنید، متن را درشت یا کج کنید و حتی میان‌برهای کیبورد مثل Ctrl+B یا Ctrl+U هم در آن عمل می‌کنند. پنجره‌ها مینیمایز و ماکسیمایز می‌شوند، درست مثل سیستم‌عامل واقعی.

ساخت کلون ویندوز ۱۱ با جمنای ۳
ساخت کلون ویندوز ۱۱ با جمنای ۳

اما اوج شگفتی زمانی بود که مرورگر کروم در این ویندوز مجازی باز شد. این مرورگر به‌طور پیش‌فرض ویکی‌پدیا را بارگذاری کرد و در تست من، صفحه‌ی ایران را باز کرد.

البته همه‌چیز بی‌نقص نبود؛ تصویر پس‌زمینه در تست من لود نشد و منوی استارت و نوار جستجوی ویندوز کار نمی‌کردند که احتمالاً نیاز به دستورات دقیق‌تری در پرامپت داشت، اما برای اولین تلاش، نتیجه فراتر از انتظار بود.

ساخت کلون ویندوز ۱۱ با جمنای ۳
ساخت کلون ویندوز ۱۱ با جمنای ۳
ساخت کلون ویندوز ۱۱ با جمنای ۳

از جمنای همچنین خواسته شد یک نسخه‌ی کپی از فتوشاپ با تمام ابزارهای پایه مثل قلم‌مو، لایه‌ها، فیلترها و تاریخچه ویرایش بسازد. نتیجه باز هم حیرت‌آور بود. قلم‌موها با قابلیت تنظیم فشار و سختی کار می‌کردند، لایه‌ها قابلیت تنظیم شفافیت داشتند و حتی «Blending Mode»ها مثل Multiply و Screen به درستی عمل می‌کردند. به‌گفته‌ی AI Search، تنها مدلی که پیش از این توانسته بود چنین خروجی‌ای بدهد، GPT-5 بود و حالا جمنای ۳ شانه‌به‌شانه آن حرکت می‌کند.

بازی Doom در تسخیر شلغم‌ها!

همه‌ی ما بازی محبوب «Doom» را به‌عنوان بازی‌ای پر از خشونت، اسلحه‌های متنوع و مبارزه با شیاطین در سیاره‌ی مریخ می‌شناسیم. اما اتن مالیک، پژوهشگر هوش مصنوعی، از جمنای خواست تا Doom را با یک شرط عجیب بازسازی کند: «بدون تفنگ، بدون موجودات شیطانی و بدون مریخ. فقط سبزیجات ریشه‌ای!»

پخش از رسانه

نتیجه، چیزی است که در ویدیوی بالا می‌بینید؛ به جای دووم اسلیر، شما در نقش چیزی شبیه به یک بازرس منابع انسانی قرار می‌گیرید که وظیفه‌اش نظارت بر کفپوش‌ها و تزئینات داخلی است. تصور کنید در راهروهای اداره راه می‌روید و به جای هیولا، با شلغم‌های متخاصم روبرو می‌شوید که اگر زیاد به آن‌ها نزدیک شوید، سیستم به شما اخطار «رعایت حریم شخصی» می‌دهد!

جمنای ۳، برنده آزمون پول درآوردن

یکی از جذاب‌ترین تست‌های هوش مصنوعی، آزمونی به نام «Vending Bench» است. تصور کنید به هوش مصنوعی سرمایه‌ای اندک می‌دهید و از او می‌خواهید یک کسب‌وکار (مثل مدیریت یک دستگاه فروش خودکار یا یک مغازه) را برای برای ۳۵۰ روز متوالی بگرداند.

وظیفه‌ی مدل این است که موجودی کالاها را چک کند، با تامین‌کنندگان مذاکره کند، درخواست‌های مشتریان را پاسخ دهد و سودآوری را تضمین کند. این تست توسط آزمایشگاه‌های مستقل طراحی شده تا ببینند آیا هوش مصنوعی می‌تواند در آینده، سازمان‌ها را بدون دخالت انسان اداره کند یا خیر.

جمنای ۳ سرمایه‌ ۵۰۰ دلاری را ده برابر کرد

در این تست، مدل Sonnet 4.5 و گراک ۴ به‌ترتیب به سودهای ۳۸۳۹ و زیر ۲۰۰۰ دلار رسیدند، اما جمنای ۳ پرو با یک جهش خیره‌کننده، سرمایه‌ی خود را به بیش از ۵۰۰۰ دلار رساند؛ یعنی بیش از ده برابر سرمایه‌ی اولیه. مدل جدید اوپوس ۴.۵ هم که بعد از جمنای ۳ منتشر شد، توانست سرمایه‌ی ۵۰۰ دلاری را به ۴۹۶۷ دلار برساند و رقابت نزدیک‌تری با جمنای ۳ داشته باشد.

به گفته‌ی یوتیوبر Ves Roth، وقتی هم مدل‌ها روبه‌روی هم قرار گرفتند، استراتژی‌های جمنای چنان کارآمد بود که در روزهای پایانی رقابت، مدل‌های قدرتمندی مثل GPT 5.1 و جمنای ۲.۵ پرو را به ورشکستگی و سود منفی کشاند.

مشکلات و محدودیت‌های جمنای ۳

باوجود هیجان اولیه، بسیاری از متخصصانی که روزانه با هوش مصنوعی کار می‌کنند، معتقدند که اگرچه جمنای ۳ چشمگیر است، اما هنوز جایگزین همه چیز نیست.

برای مثال، توماس شلگل، معاون مهندسی شرکت Built (پلتفرم مالی ساخت‌وساز)، که از ترکیبی از مدل‌ها برای تحلیل اسناد ساختمانی استفاده می‌کند، به ورج گفت که جمنای ۳ برای کارهای عمومی بهترین است، اما احتمالا همچنان از Claude برای کارهای کدنویسی خاص و از مدل‌های OpenAI برای استدلال‌های تجاری استفاده خواهد کرد.

جمنای ۳ پایان کار رقبای گوگل نیست

لوئیس بلنک‌مایر، مدیرعامل استارتاپ رادیولوژی Cognita، هم جمنای ۳ را از نظر اعداد و ارقام خالص، فوق‌العاده هیجان‌انگیز توصیف کرد؛ اما وقتی مدل را در زمینه‌ی رادیولوژی تست کرد، متوجه شد که جمنای در تشخیص شکستگی‌های ظریف دنده در عکس‌های اشعه ایکس و شناسایی شرایط نادر پزشکی دچار مشکل شد. بلنک‌مایر تأکید می‌کند: «دنیای واقعی بسیار سخت‌تر است» و مدل‌های قدیمی‌تر که با داده‌های خاص آموزش دیده‌اند، ممکن است هنوز در موارد حساس قابل اعتمادتر باشند.

آندری کارپاتی، محقق سابق OpenAI، نیز نوشت که جمنای ۳ پتانسیل بالایی دارد، اما گاهی گیج می‌شود؛ مثلا فراموش کرد موتور جستجوی گوگل را روشن کند یا اصرار داشت که سال ۲۰۲۴ است. (گوگل اعلام کرده این مشکلات مربوط به پرامپت‌های سیستمی اولیه بوده و رفع خواهد شد).

با این اوصاف، جمنای ۳ پایان کار رقبای گوگل نیست، چرا که هر ماه یک مدل دیگر از دیگری جلو می‌زند. مثلا درست یک روز بعد از انتشار جمنای ۳، شرکت OpenAI مدلی به نام GPT-5.1-Codex-Max را منتشر کرد تا در برخی بنچمارک‌های کدنویسی با جمنای رقابت کند.

گوگل برنده هوش مصنوعی است؟

جمنای ۳ در تمام دسته‌بندی‌ها، از درک ویدیو و تصویر گرفته تا حل مسائل پیچیده ریاضی و کدنویسی، یا در رتبه‌ی اول است یا با اختلاف کمی در صدر رقابت می‌کند.

وال‌استریت ژورنال، جمنای ۳ را «مدل برتر بعدی آمریکا» نامید و موفقیت این مدل، ارزش بازار آلفابت (شرکت مادر گوگل) به ۳٫۶ تریلیون دلار رسید تا برای اولین بار در هفت سال گذشته از مایکروسافت پیشی بگیرد.

اگرچه OpenAI مالک ChatGPT، محبوب‌ترین چت‌بات هوش مصنوعی جهان است، اما فراتر از آن تقریبا دستش خالی است؛ این شرکت برای تامین تراشه‌ها و فضای دیتاسنتر به شراکت با دیگران وابسته است؛ اما گوگل تمام این امکانات را یکجا دارد و می‌تواند محصول هوش مصنوعی خود را از صفر تا صد کنترل کند؛ از تحقیقات اولیه و زیرساخت‌های ابری اختصاصی گرفته تا سیستم پیشنهاددهی یوتیوب و خلاصه‌های هوشمند جستجو.

OpenAI برای تراشه به دیگران محتاج است، اما گوگل همه چیز را یکجا دارد

بااین‌حال، OpenAI همچنان در زمینه‌ی برندسازی، برتری بزرگی نسبت‌به گوگل دارد. این روزها، نام «ChatGPT» برای بسیاری از مردم مساوی است با هوش مصنوعی، درست همان‌طور که «گوگل» مترادف جستجو در اینترنت شده است.

البته شانس با گوگل یار است، چرا که زمان زیادی دارد تا برای تغییر این ذهنیت تلاش کند. به باور مایکل ناتانسون، تحلیلگر بازار، گوگل «برنده‌ی هوش مصنوعی است، این کاملاً واضح است. من الان حس می‌کنم آن‌ها دستِ بالا را دارند.»

نظرات