ساخت ویندوز و فتوشاپ در چند ثانیه؛ شاهکار ترسناک هوش مصنوعی جدید گوگل
تا همین چند ماه پیش، همهجا صحبت از این بود که گوگل از قافلهی هوش مصنوعی عقب مانده است و سوندار پیچای باید استعفا دهد. اما هفتهی گذشته، گوگل با معرفی مدل هوش مصنوعی جمنای ۳ چنان گردوخاکی به پا کرد که حالا همهی دنیا دوباره آنها را به چشم غول بیرقیب همیشگی میبینند؛ شرکتی که همه چیز، از زیرساختهای عظیم و تراشههای اختصاصی TPU گرفته تا بودجهی بیپایان و دسترسیبه میلیاردها کاربر، را با هم دارد؛ اما نتوانسته بود در رقابت هوش مصنوعی، به محبوبیت OpenAI برسد.
اما تنها چند روز پس از رونمایی جمنای ۳، یادداشتی داخلی از سم آلتمن، مدیرعامل OpenAI، به بیرون درز کرد که اعترافی تلخ در آن نهفته بود: اینکه گوگل بالاخره به گرد پای آنها رسیده است و شرکتش روزهای سختی در پیش دارد.
خلاصه پادکستی
جمنای ۳، در چند روز اخیر با موجی از میمها و تحلیلهای مثبت، اینترنت را به تسخیر خودش درآورده است و باعث شد ارزش بازار آلفابت به ۴ تریلیون دلار نزدیک شود.
برای مردم عادی، ChatGPT مساوی است با هوش مصنوعی. اما آیا با جمنای ۳، آنطور که بنچمارکها و تحلیلگرها میگویند، کار رقبا تمام است؟
جمنای ۳ و آنتیگراویتی
گوگل، جمنای ۳ را «بهترین مدل جهان برای درک چندوجهی» و قدرتمندترین مدل این شرکت برای کدنویسی و انجام وظایف معرفی میکند که با ترکیب تمام قابلیتهای قبلی، به کاربر اجازه میدهد «هر ایدهای را به واقعیت تبدیل کند».
به گفتهی گوگل، جمنای ۳ با پنجرهی متنی یک میلیون توکنی و خروجی متن تا ۶۴ هزار توکن، بسیار بهتر از قبل میتواند نیت و هدف درخواست کاربر را بفهمد، بنابراین با توضیحات کمتر، نتیجهی بهتری میگیرد. دمیس هاسابیس، مدیرعامل گوگل دیپمایند هم از جمنای ۳ بهعنوان «گام بزرگ دیگری به سمت هوش مصنوعی انسانگونه (AGI)» یاد کرد.
جمنای ۳ فقط حرف نمیزند، «عمل» میکند
آنطور که نتایج آزمونهای گوگل نشان میدهد، جمنای ۳ پرو در تمام بنچمارکهای اصلی هوش مصنوعی، از نسخهی ۲٫۵ پرو پیشی گرفته است؛ عملکردی در سطح دکترا دارد؛ آنچه را که «نیاز دارید بشنوید» میگوید و میتواند ویدیوها را تحلیل کند یا دستخطهای قدیمی را بخواند.
علاوهبراین، جمنای ۳ میتواند «عمل» کند؛ یعنی میتواند در تقویم بگردد، ایمیل بفرستد، کد بنویسد و آن را اجرا کند. برای مثال، میتوانید به این مدل بگویید «یک بازی فضایی بساز که حس نوستالژیک دههی ۸۰ را داشته باشد» و هوش مصنوعی خودش جزییات فنی را برای رسیدن به آن حس پیادهسازی میکند.
آنتیگراویتی به صورت محلی روی سیستم اجرا میشود
درکنار جمنای ۳، نام پلتفرم جدید «گوگل آنتیگراویتی» هم بر سر زبانها افتاده است؛ این پلتفرم مخصوص برنامهنویسان است که ظاهری شبیه محیطهای کدنویسی آشنا دارد، اما برخلاف مدلهای قبلی که فقط متن تولید میکردند، ایجنتهای Antigravity به ویرایشگر کد، ترمینال و مرورگر دسترسی مستقیم دارند. این ایجنتها همچنین میتوانند خودشان، کد را تست و اجرا کنند تا مطمئن شوند که درست کار میکند.
نکتهی جالبتوجه دربارهی آنتیگراویتی این است که برخلاف بسیاری از ابزارهای مشابه که تماما در فضای ابری اجرا میشوند، این پلتفرم به صورت محلی روی سیستم اجرا میشود، اما همچنان قدرتی خیرهکننده دارد.
بنچمارکها چه میگویند؟
نتایج بنچمارکهای جمنای ۳ واقعا خیرهکننده است. در آزمون «Humanity's Last Exam» که شامل سوالات بسیار دشوار چندرسانهای است که توسط متخصصان خبره در حوزههای ریاضی و علوم طراحی شدهاند، جمنای ۳ با کسب نمرهی ۳۷٫۵ درصد، رقیب نزدیک خود GPT 5.1 با امتیاز ۲۶٫۵ درصد را بهراحتی کنار زد. نسخهی پیشرفتهتر این مدل، «Deep Think»، حتی فراتر رفت و نمرهی ۴۱ درصد را ثبت کرد.
یکی دیگر از معیارها، تست «ARC AGI 2» است که توانایی مدل را در یادگیری الگوهای جدید با کمترین داده میسنجد. در این آزمون، جمنای ۳ پرو نهتنها با دقت ۳۱٫۱ درصد، بالاترین نمره را در بین مدلهای عمومی کسب کرد، بلکه این کار را با کمترین هزینه انجام داد (۴۹ سنت به ازای هر وظیفه).
شاید فکر کنید که بنچمارکهای سنتی ریاضی دیگر اشباع شدهاند و اکثر مدلها، نمرات بالای ۹۰ درصد میگیرند. حق با شماست؛ در آزمونهایی مثل «GPQA Diamond» و «AIME 2025»، جمنای ۳ بهترتیب نمرات ۹۱٫۹ و ۹۵ درصد را کسب کرد (و با ابزار کدنویسی به ۱۰۰ درصد رسید). اما عیار واقعی در آزمون «Math Arena Apex» مشخص شد. این آزمون شامل سختترین مسائل المپیادهای اخیر است که هنوز توسط مدلها حل نشدهاند. درحالی که سایر مدلها بهسختی به دقت ۱ درصد میرسند، جمنای ۳ توانست ۲۳٫۴ درصد از مسائل را حل کند.
علاوهبر ریاضیات، توانایی این مدل در درک دنیای بصری نیز خیرهکننده است. در بنچمارک «Screenspot Pro» که توانایی مدل در کار با رابطهای گرافیکی کامپیوتر را میسنجد، جمنای ۳ به نمرهی ۷۲٫۷ درصد دست یافت، درحالیکه مدل Claude، تنها ۳۶ درصد کسب کرد.
جمنای ۳ در ۱۹ مورد از ۲۰ بنچمارک اصلی، رتبه اول را کسب کرد
بهطور خلاصه، مدل جمنای ۳ در ۱۹ مورد از ۲۰ بنچمارک، رتبهی اول را بین رقبا به دست آورده و فقط در آزمون «SWE-Bench Verified» که توانایی مدل را در حل مسائل واقعی مهندسی نرمافزار میسنجد، با اختلاف چند درصدی عقب افتاده است.
شوک در سیلیکونولی؛ جهشی دیوانهکننده
بهگفتهی لوگان کیلپاتریک، مدیر محصول دیپمایند، جمنای ۳ بهترین میزان پذیرش در روز اول را بین تمام مدلهای این شرکت داشته است.
پلتفرم LMArena که چیزی شبیه «بیلبورد هات ۱۰۰» برای ردهبندی مدلهای هوش مصنوعی است، بلافاصله شاهد صدرنشینی جمنای ۳ بود. وی-لین چیانگ، همبنیانگذار LMArena به ورج گفت:
جمنای ۳ پرو در دستهبندیهای شغلی شامل کدنویسی، ریاضیات و نوشتار خلاق پیشتاز است و در بسیاری از موارد، در قابلیتهای کدنویسی عاملگرا از مدلهای برتری مثل Claude 4.5 و GPT-5.1 فراتر رفته است.
مارک بنیوف، مدیرعامل شرکت سیلزفورس و یکی از سرسختترین حامیان ChatGPT، پس از مدت کوتاهی کار با جمنای ۳، اعلام کرد که قید چتبات شرکت OpenAI را زده است.
بنیوف در شبکه اجتماعی X نوشت: «باورکردنی نیست! من سه سال تمام هر روز از ChatGPT استفاده میکردم. اما الان فقط دو ساعت با جمنای ۳ کار کردم و دیگر به عقب برنمیگردم. این جهش دیوانهوار است؛ قدرت استدلال، سرعت، تصاویر، ویدیو...همهچیز دقیقتر و سریعتر شده. انگار دنیا دوباره تغییر کرده است.»
عرضهی جمنای ۳ توجه رهبران سیلیکونولی را هم به خود جلب کرد. سم آلتمن، در شبکه اجتماعی ایکس به گوگل تبریک گفت و نوشت: «تبریک به گوگل بابت جمنای ۳! مدل فوقالعادهای به نظر میرسد.»
یادداشت داخلی سم آلتمن: گوگل بالاخره به گرد پای ما رسید
آندره کارپاتی، یکی از همبنیانگذاران OpenAI و مدیر سابق هوش مصنوعی تسلا، نیز در ایکس نوشت که «برداشت اولیهی مثبتی» از این مدل داشته است. او جمنای ۳ را مدلی با «پتانسیل بالا برای استفادهی روزمره» و «قطعا یک مدل زبانی بزرگ درجه یک» توصیف کرد.
اما در پسِ این تعریف و تمجیدهای عمومی، نشانههایی از نگرانی در OpenAI به چشم میخورد. در یک یادداشت داخلی که پیش از انتشار جمنای ۳ نوشته شده است، آلتمن به کارکنان خود هشدار داده بود که انتظار «جو سنگین و شرایط سختی» را داشته باشند و افزود: «طبق تمام شواهد، گوگل اخیرا عملکرد فوقالعادهای داشته است.» او با اشاره به اینکه پیشرفت گوگل ممکن است «چالشهای اقتصادی موقتی برای شرکت ما ایجاد کند»، تأکید کرد که OpenAI «بهسرعت در حال جبران فاصله است».
ساخت ویندوز ۱۱ و فتوشاپ با جمنای ۳
عملکرد جمنای ۳ در بنچمارکها درخشان بود، اما در کاربردهای واقعی چطور؟
براساس آزمایش AI Search، جمنای ۳ توانست با موفقیت از پس اجرای این درخواست برآید: «یک نسخهی کپی از دسکتاپ ویندوز ۱۱ بساز. از تصویر پسزمینهی اصلی استفاده کن و آیکونهای نرمافزارهای ورد، پینت، ماشینحساب و کروم را روی آن قرار بده. همهی این برنامهها باید کار کنند.» ما هم همین درخواست را با ابزار Canvas جمنای ۳ امتحان کردیم و نتیجهی کموبیش یکسانی گرفتیم.
در تست AI Search، آنچه روی صفحه ظاهر شد، یک دسکتاپ ویندوز ۱۱ تمامعیار در قالب یک فایل HTML مستقل بود. وقتی روی آیکون ورد کلیک میکنید، یک ویرایشگر متن باز میشود که واقعا کار میکند. میتوانید در این محیط تایپ کنید، متن را درشت یا کج کنید و حتی میانبرهای کیبورد مثل Ctrl+B یا Ctrl+U هم در آن عمل میکنند. پنجرهها مینیمایز و ماکسیمایز میشوند، درست مثل سیستمعامل واقعی.
اما اوج شگفتی زمانی بود که مرورگر کروم در این ویندوز مجازی باز شد. این مرورگر بهطور پیشفرض ویکیپدیا را بارگذاری کرد و در تست من، صفحهی ایران را باز کرد.
البته همهچیز بینقص نبود؛ تصویر پسزمینه در تست من لود نشد و منوی استارت و نوار جستجوی ویندوز کار نمیکردند که احتمالاً نیاز به دستورات دقیقتری در پرامپت داشت، اما برای اولین تلاش، نتیجه فراتر از انتظار بود.
از جمنای همچنین خواسته شد یک نسخهی کپی از فتوشاپ با تمام ابزارهای پایه مثل قلممو، لایهها، فیلترها و تاریخچه ویرایش بسازد. نتیجه باز هم حیرتآور بود. قلمموها با قابلیت تنظیم فشار و سختی کار میکردند، لایهها قابلیت تنظیم شفافیت داشتند و حتی «Blending Mode»ها مثل Multiply و Screen به درستی عمل میکردند. بهگفتهی AI Search، تنها مدلی که پیش از این توانسته بود چنین خروجیای بدهد، GPT-5 بود و حالا جمنای ۳ شانهبهشانه آن حرکت میکند.
بازی Doom در تسخیر شلغمها!
همهی ما بازی محبوب «Doom» را بهعنوان بازیای پر از خشونت، اسلحههای متنوع و مبارزه با شیاطین در سیارهی مریخ میشناسیم. اما اتن مالیک، پژوهشگر هوش مصنوعی، از جمنای خواست تا Doom را با یک شرط عجیب بازسازی کند: «بدون تفنگ، بدون موجودات شیطانی و بدون مریخ. فقط سبزیجات ریشهای!»
پخش از رسانه
نتیجه، چیزی است که در ویدیوی بالا میبینید؛ به جای دووم اسلیر، شما در نقش چیزی شبیه به یک بازرس منابع انسانی قرار میگیرید که وظیفهاش نظارت بر کفپوشها و تزئینات داخلی است. تصور کنید در راهروهای اداره راه میروید و به جای هیولا، با شلغمهای متخاصم روبرو میشوید که اگر زیاد به آنها نزدیک شوید، سیستم به شما اخطار «رعایت حریم شخصی» میدهد!
جمنای ۳، برنده آزمون پول درآوردن
یکی از جذابترین تستهای هوش مصنوعی، آزمونی به نام «Vending Bench» است. تصور کنید به هوش مصنوعی سرمایهای اندک میدهید و از او میخواهید یک کسبوکار (مثل مدیریت یک دستگاه فروش خودکار یا یک مغازه) را برای برای ۳۵۰ روز متوالی بگرداند.
وظیفهی مدل این است که موجودی کالاها را چک کند، با تامینکنندگان مذاکره کند، درخواستهای مشتریان را پاسخ دهد و سودآوری را تضمین کند. این تست توسط آزمایشگاههای مستقل طراحی شده تا ببینند آیا هوش مصنوعی میتواند در آینده، سازمانها را بدون دخالت انسان اداره کند یا خیر.
جمنای ۳ سرمایه ۵۰۰ دلاری را ده برابر کرد
در این تست، مدل Sonnet 4.5 و گراک ۴ بهترتیب به سودهای ۳۸۳۹ و زیر ۲۰۰۰ دلار رسیدند، اما جمنای ۳ پرو با یک جهش خیرهکننده، سرمایهی خود را به بیش از ۵۰۰۰ دلار رساند؛ یعنی بیش از ده برابر سرمایهی اولیه. مدل جدید اوپوس ۴.۵ هم که بعد از جمنای ۳ منتشر شد، توانست سرمایهی ۵۰۰ دلاری را به ۴۹۶۷ دلار برساند و رقابت نزدیکتری با جمنای ۳ داشته باشد.
به گفتهی یوتیوبر Ves Roth، وقتی هم مدلها روبهروی هم قرار گرفتند، استراتژیهای جمنای چنان کارآمد بود که در روزهای پایانی رقابت، مدلهای قدرتمندی مثل GPT 5.1 و جمنای ۲.۵ پرو را به ورشکستگی و سود منفی کشاند.
مشکلات و محدودیتهای جمنای ۳
باوجود هیجان اولیه، بسیاری از متخصصانی که روزانه با هوش مصنوعی کار میکنند، معتقدند که اگرچه جمنای ۳ چشمگیر است، اما هنوز جایگزین همه چیز نیست.
برای مثال، توماس شلگل، معاون مهندسی شرکت Built (پلتفرم مالی ساختوساز)، که از ترکیبی از مدلها برای تحلیل اسناد ساختمانی استفاده میکند، به ورج گفت که جمنای ۳ برای کارهای عمومی بهترین است، اما احتمالا همچنان از Claude برای کارهای کدنویسی خاص و از مدلهای OpenAI برای استدلالهای تجاری استفاده خواهد کرد.
جمنای ۳ پایان کار رقبای گوگل نیست
لوئیس بلنکمایر، مدیرعامل استارتاپ رادیولوژی Cognita، هم جمنای ۳ را از نظر اعداد و ارقام خالص، فوقالعاده هیجانانگیز توصیف کرد؛ اما وقتی مدل را در زمینهی رادیولوژی تست کرد، متوجه شد که جمنای در تشخیص شکستگیهای ظریف دنده در عکسهای اشعه ایکس و شناسایی شرایط نادر پزشکی دچار مشکل شد. بلنکمایر تأکید میکند: «دنیای واقعی بسیار سختتر است» و مدلهای قدیمیتر که با دادههای خاص آموزش دیدهاند، ممکن است هنوز در موارد حساس قابل اعتمادتر باشند.
آندری کارپاتی، محقق سابق OpenAI، نیز نوشت که جمنای ۳ پتانسیل بالایی دارد، اما گاهی گیج میشود؛ مثلا فراموش کرد موتور جستجوی گوگل را روشن کند یا اصرار داشت که سال ۲۰۲۴ است. (گوگل اعلام کرده این مشکلات مربوط به پرامپتهای سیستمی اولیه بوده و رفع خواهد شد).
با این اوصاف، جمنای ۳ پایان کار رقبای گوگل نیست، چرا که هر ماه یک مدل دیگر از دیگری جلو میزند. مثلا درست یک روز بعد از انتشار جمنای ۳، شرکت OpenAI مدلی به نام GPT-5.1-Codex-Max را منتشر کرد تا در برخی بنچمارکهای کدنویسی با جمنای رقابت کند.
گوگل برنده هوش مصنوعی است؟
جمنای ۳ در تمام دستهبندیها، از درک ویدیو و تصویر گرفته تا حل مسائل پیچیده ریاضی و کدنویسی، یا در رتبهی اول است یا با اختلاف کمی در صدر رقابت میکند.
والاستریت ژورنال، جمنای ۳ را «مدل برتر بعدی آمریکا» نامید و موفقیت این مدل، ارزش بازار آلفابت (شرکت مادر گوگل) به ۳٫۶ تریلیون دلار رسید تا برای اولین بار در هفت سال گذشته از مایکروسافت پیشی بگیرد.
اگرچه OpenAI مالک ChatGPT، محبوبترین چتبات هوش مصنوعی جهان است، اما فراتر از آن تقریبا دستش خالی است؛ این شرکت برای تامین تراشهها و فضای دیتاسنتر به شراکت با دیگران وابسته است؛ اما گوگل تمام این امکانات را یکجا دارد و میتواند محصول هوش مصنوعی خود را از صفر تا صد کنترل کند؛ از تحقیقات اولیه و زیرساختهای ابری اختصاصی گرفته تا سیستم پیشنهاددهی یوتیوب و خلاصههای هوشمند جستجو.
OpenAI برای تراشه به دیگران محتاج است، اما گوگل همه چیز را یکجا دارد
بااینحال، OpenAI همچنان در زمینهی برندسازی، برتری بزرگی نسبتبه گوگل دارد. این روزها، نام «ChatGPT» برای بسیاری از مردم مساوی است با هوش مصنوعی، درست همانطور که «گوگل» مترادف جستجو در اینترنت شده است.
البته شانس با گوگل یار است، چرا که زمان زیادی دارد تا برای تغییر این ذهنیت تلاش کند. به باور مایکل ناتانسون، تحلیلگر بازار، گوگل «برندهی هوش مصنوعی است، این کاملاً واضح است. من الان حس میکنم آنها دستِ بالا را دارند.»