شایعات هیجان انگیز درباره مدل هوش مصنوعی DeepSeek R2

0 خواندن این مطلب 2 دقیقه زمان میبرد

شایعات هیجان انگیز درباره مدل هوش مصنوعی DeepSeek R2 — مدل هوش مصنوعی DeepSeek R2

شایعات درباره مدل هوش مصنوعی DeepSeek R2 در فضای آنلاین منتشر شده است؛ گفته می‌شود هزینه‌های آن 97 درصد کمتر از GPT-4 است و به‌طور کامل روی تراشه‌های Ascend هواوی آموزش دیده است.

به نظر می‌رسد شرکت چینی DeepSeek به زودی مدل جدیدی را به بازار عرضه خواهد کرد، زیرا جزئیاتی درباره مدل بعدی آن‌ها با نام “DeepSeek R2” در اینترنت منتشر شده است.

DeepSeek R2 می‌تواند بار دیگر بازارهای هوش مصنوعی را متحول کند؛ گفته می‌شود عمدتاً با تراشه‌های هوش مصنوعی هواوی آموزش دیده است.

مدل اصلی DeepSeek، یعنی R1، به جهان غرب نشان داد که چین در توسعه مدل‌های پیشرفته هوش مصنوعی اصلاً عقب نیست. عرضه این مدل در چین به حدی بازار سهام آمریکا را شوکه کرد که میلیاردها دلار از ارزش آن کاسته شد، اما همچنین نشان داد که توسعه مدل‌های هوش مصنوعی نیازی به هزینه‌های هنگفتی که شرکت‌هایی مانند OpenAI به عموم اعلام کرده‌اند، ندارد. حالا رسانه‌های چینی شروع به گزارش شایعاتی درباره مدل بعدی DeepSeek، یعنی R2، کرده‌اند و نمی‌توان گفت که بازارهای هوش مصنوعی غرب بار دیگر با پیشرفتی شگفت‌انگیز از سوی چین مواجه نخواهند شد.

شایعات ویروسی درباره DeepSeek R2 فاش شد!

1.2 تریلیون پارامتر، 78 میلیارد فعال، معماری ترکیبی MoE
97.3 درصد ارزان‌تر از GPT-4o (0.07 دلار به ازای هر میلیون توکن ورودی، 0.27 دلار به ازای هر میلیون توکن خروجی)
5.2 پتابایت داده آموزشی. 89.7 درصد در C-Eval2.0
بینایی بهتر. 92.4 درصد در COCO
82 درصد استفاده از تراشه‌های Ascend 910B هواوی
تغییر بزرگ به سمت زنجیره تأمین غیرآمریکایی.

منبع: Deedy (@deedydas) 26 آوریل 2025

پیش از پرداختن به جزئیات، مهم است که این شایعات را با احتیاط در نظر بگیریم، زیرا DeepSeek هنوز ارقام رسمی درباره مدل بعدی خود را تأیید نکرده است. منابع چینی ادعا می‌کنند که مدل R2 قرار است از معماری ترکیبی MoE (ترکیب کارشناسان) استفاده کند، که گفته می‌شود نسخه پیشرفته‌ای از پیاده‌سازی فعلی MoE است و احتمالاً دارای مکانیزم‌های دروازه‌بندی پیشرفته یا ترکیبی از لایه‌های MoE و متراکم برای بهینه‌سازی بارهای کاری پیشرفته است. با این معماری، DeepSeek R2 قرار است دو برابر R1 پارامتر داشته باشد و به 1.2 تریلیون پارامتر برسد.

تنها بر اساس این رقم، گفته می‌شود R2 می‌تواند با GPT-4 Turbo و Gemini 2.0 Pro گوگل رقابت کند، اما این تنها حوزه‌ای نیست که DeepSeek قصد تأثیرگذاری در آن را دارد. گزارش ادعا می‌کند که با DeepSeek R2، هزینه‌های واحد به ازای هر توکن 97.4 درصد کمتر از GPT-4 است، با هزینه 0.07 دلار به ازای هر میلیون توکن ورودی و 0.27 دلار به ازای هر میلیون توکن خروجی. در مقایسه با قیمت‌گذاری OpenAI، مدل R2 DeepSeek برای شرکت‌ها یک معامله بسیار مقرون‌به‌صرفه خواهد بود، زیرا اقتصادی‌ترین مدل موجود خواهد بود. این عرضه می‌تواند لحظه‌ای تعیین‌کننده برای هوش مصنوعی و اقتصاد پیرامون آن باشد.

نکته جالب دیگری که درباره DeepSeek R2 فاش شده این است که گفته می‌شود این مدل به 82 درصد استفاده از خوشه تراشه‌های Ascend 910B هواوی دست یافته است، با قدرت محاسباتی 512 پتافلاپس در دقت FP16، که نشان می‌دهد DeepSeek تصمیم گرفته برای مدل اصلی بعدی خود از منابع داخلی استفاده کند. ما می‌دانستیم که این شرکت هوش مصنوعی چینی به شدت به تراشه‌های هوش مصنوعی هواوی علاقه‌مند است و با آموزش R2 با تجهیزات داخلی، DeepSeek عملاً زنجیره تأمین هوش مصنوعی را به‌صورت «عمودی یکپارچه» کرده است.

بار دیگر مهم است تأکید کنیم که تحولات پیرامون DeepSeek R2 گمانه‌زنی هستند و مدل نهایی ممکن است چیز متفاوتی باشد. با این حال، بر اساس آنچه منابع رسانه‌ای چینی گزارش می‌دهند، R2 به نظر می‌رسد عرضه دیگری باشد که شرکت‌های اصلی هوش مصنوعی را شگفت‌زده خواهد کرد.

بخوانید: Nexus Mods توضیح می‌دهد چرا ماد جایگزین‌کننده Body Type با مرد و زن در Oblivion Remastered را بازگرداند

منبع

برچسب ها