هفته گذشته DeepSeek R1 با ادعای رسیدن به سطح ChatGPT o1 خبرساز شد، اما بعداً مشخص شد که برای کاهش هزینه، از پاسخهای ChatGPT در دادههای آموزشی خودش استفاده کرده—ادعایی که OpenAI هم تأیید کرد!
حالا محققان از همین روش برای ساخت مدل S1 استفاده کردن. آنها با کمک Gemini 2.0 Flash هزار نمونه پرسش و پاسخ باکیفیت تولید و از این دادهها برای آموزش مدل S1-32B (بر پایه مدل متنباز Qwen علیبابا) استفاده کردند.
نتیجه…؟
یک مدل در حد ChatGPT o1، فقط در ۳۰ دقیقه آموزش با هزینه ۵۰ دلار! این مدل حتی ۲۷٪ عملکرد بهتری در تستهای ریاضی نشان داده است!