
شایعات هیجان انگیز درباره مدل هوش مصنوعی DeepSeek R2
شایعات درباره مدل هوش مصنوعی DeepSeek R2 در فضای آنلاین منتشر شده است؛ گفته میشود هزینههای آن 97 درصد کمتر از GPT-4 است و بهطور کامل روی تراشههای Ascend هواوی آموزش دیده است.
به نظر میرسد شرکت چینی DeepSeek به زودی مدل جدیدی را به بازار عرضه خواهد کرد، زیرا جزئیاتی درباره مدل بعدی آنها با نام “DeepSeek R2” در اینترنت منتشر شده است.
DeepSeek R2 میتواند بار دیگر بازارهای هوش مصنوعی را متحول کند؛ گفته میشود عمدتاً با تراشههای هوش مصنوعی هواوی آموزش دیده است.
مدل اصلی DeepSeek، یعنی R1، به جهان غرب نشان داد که چین در توسعه مدلهای پیشرفته هوش مصنوعی اصلاً عقب نیست. عرضه این مدل در چین به حدی بازار سهام آمریکا را شوکه کرد که میلیاردها دلار از ارزش آن کاسته شد، اما همچنین نشان داد که توسعه مدلهای هوش مصنوعی نیازی به هزینههای هنگفتی که شرکتهایی مانند OpenAI به عموم اعلام کردهاند، ندارد. حالا رسانههای چینی شروع به گزارش شایعاتی درباره مدل بعدی DeepSeek، یعنی R2، کردهاند و نمیتوان گفت که بازارهای هوش مصنوعی غرب بار دیگر با پیشرفتی شگفتانگیز از سوی چین مواجه نخواهند شد.
شایعات ویروسی درباره DeepSeek R2 فاش شد!
- 1.2 تریلیون پارامتر، 78 میلیارد فعال، معماری ترکیبی MoE
- 97.3 درصد ارزانتر از GPT-4o (0.07 دلار به ازای هر میلیون توکن ورودی، 0.27 دلار به ازای هر میلیون توکن خروجی)
- 5.2 پتابایت داده آموزشی. 89.7 درصد در C-Eval2.0
- بینایی بهتر. 92.4 درصد در COCO
- 82 درصد استفاده از تراشههای Ascend 910B هواوی
- تغییر بزرگ به سمت زنجیره تأمین غیرآمریکایی.
منبع: Deedy (@deedydas) 26 آوریل 2025
پیش از پرداختن به جزئیات، مهم است که این شایعات را با احتیاط در نظر بگیریم، زیرا DeepSeek هنوز ارقام رسمی درباره مدل بعدی خود را تأیید نکرده است. منابع چینی ادعا میکنند که مدل R2 قرار است از معماری ترکیبی MoE (ترکیب کارشناسان) استفاده کند، که گفته میشود نسخه پیشرفتهای از پیادهسازی فعلی MoE است و احتمالاً دارای مکانیزمهای دروازهبندی پیشرفته یا ترکیبی از لایههای MoE و متراکم برای بهینهسازی بارهای کاری پیشرفته است. با این معماری، DeepSeek R2 قرار است دو برابر R1 پارامتر داشته باشد و به 1.2 تریلیون پارامتر برسد.
تنها بر اساس این رقم، گفته میشود R2 میتواند با GPT-4 Turbo و Gemini 2.0 Pro گوگل رقابت کند، اما این تنها حوزهای نیست که DeepSeek قصد تأثیرگذاری در آن را دارد. گزارش ادعا میکند که با DeepSeek R2، هزینههای واحد به ازای هر توکن 97.4 درصد کمتر از GPT-4 است، با هزینه 0.07 دلار به ازای هر میلیون توکن ورودی و 0.27 دلار به ازای هر میلیون توکن خروجی. در مقایسه با قیمتگذاری OpenAI، مدل R2 DeepSeek برای شرکتها یک معامله بسیار مقرونبهصرفه خواهد بود، زیرا اقتصادیترین مدل موجود خواهد بود. این عرضه میتواند لحظهای تعیینکننده برای هوش مصنوعی و اقتصاد پیرامون آن باشد.
نکته جالب دیگری که درباره DeepSeek R2 فاش شده این است که گفته میشود این مدل به 82 درصد استفاده از خوشه تراشههای Ascend 910B هواوی دست یافته است، با قدرت محاسباتی 512 پتافلاپس در دقت FP16، که نشان میدهد DeepSeek تصمیم گرفته برای مدل اصلی بعدی خود از منابع داخلی استفاده کند. ما میدانستیم که این شرکت هوش مصنوعی چینی به شدت به تراشههای هوش مصنوعی هواوی علاقهمند است و با آموزش R2 با تجهیزات داخلی، DeepSeek عملاً زنجیره تأمین هوش مصنوعی را بهصورت «عمودی یکپارچه» کرده است.
بار دیگر مهم است تأکید کنیم که تحولات پیرامون DeepSeek R2 گمانهزنی هستند و مدل نهایی ممکن است چیز متفاوتی باشد. با این حال، بر اساس آنچه منابع رسانهای چینی گزارش میدهند، R2 به نظر میرسد عرضه دیگری باشد که شرکتهای اصلی هوش مصنوعی را شگفتزده خواهد کرد.