شرکت Stability AI نسل سوم مدلهای هوش مصنوعی تولید عکس Stable Diffusion 3 به صورت متن باز عرضه کرده است.
مدل جدید نسبت به مدلهای قبلی Stable Diffusion، هم عکسهای با کیفیت تری تولید میکند هم به ورودی متنی کاربر توجه بیشتری دارد و امکان کنترل بیشتری روی سوژه های عکس میدهد.
از قابلیتهای مهم این مدل هم امکان ساخت عکسهایی همراه با متن و تایپوگرافی هم است.
شرکت Stability AI سه نسخه از این مدل ساخته که مدل بزرگ و 8 میلیارد پارامتری فقط از API این شرکت در دسترس است، مدل متوسط یا 2 میلیارد پارامتری چیزی است که برای عموم عرضه شده. مدل متوسط قابل استفاده به صورت افلاین و بدون نیاز به اینترنت است ولی برای اینکار نیاز به کارت گرافیکی با حداقل 5 گیگابایت VRAM دارید.
از مزایای مدلهای متن باز و افلاین، سانسور کمتر آنها است ولی این مدل خاص برای ساخت عکسهای انسان یا زیادی سانسور شده است یا ساخت آنها قلق خاصی دارد که امیدواریم در مدلهایی که براساس اون fine tune میشوند این مشکل حل بشود.
این مدل از اینجا قابل دانلود است و اگر VRAM کمی دارید فایل sd3_medium_incl_clips و اگر VRAM کارتتون بالا است فایل sd3_medium_incl_clips_t5xxlfp8 رو دانلود کنید. اآموزش استفاده از این هوش مصنوعی به صورت افلاین در این ویدیو قابل مشاهده است.