شرکت DeepSeek، یکی از آزمایشگاههای فعال در حوزه هوش مصنوعی در چین، نسخهای سبکتر از مدل استدلالی R1 خود را معرفی کرده است. این نسخه جدید که با نام DeepSeek-R1-0528-Qwen3-8B شناخته میشود، بر پایه مدل Qwen3-8B توسعهیافته توسط شرکت علیبابا ساخته شده و توانسته در برخی تستهای ریاضی، عملکردی بالاتر از مدلهای مشابه مانند Gemini 2.5 Flash متعلق به گوگل داشته باشد.
نکته قابلتوجه درباره این مدل، امکان اجرای آن تنها با یک کارت گرافیک دارای حافظه ۴۰ تا ۸۰ گیگابایت است؛ در حالیکه نسخه اصلی R1 به منابع پردازشی بسیار بیشتری مانند ۱۲ کارت گرافیک H100 نیاز دارد. این موضوع، استفاده از مدل جدید را برای توسعهدهندگان و پژوهشگران کوچکتر نیز در دسترستر میسازد.
DeepSeek این نسخه را تحت مجوز متنباز MIT منتشر کرده که امکان بهرهبرداری تجاری بدون محدودیت را فراهم میکند.
نظر شما در مورد این مطلب چیه؟
ارسال دیدگاه