مولد های عکس هوش مصنوعی می توانند تصاویر نامناسب تولید کنند

کلمات بیهوده می توانند هوش مصنوعی های تولیدکننده متن به تصویر محبوب مانند DALL-E 2 و Midjourney را فریب دهند تا تصاویر نامناسبی مانند محتوای نامناسب یا خشونت آمیز ایجاد کنند. الگوریتم جدیدی برای تولید این دستورات و آزمایش فیلترهای ایمنی هوش مصنوعی با هدف بهبود این حفاظت ها در آینده توسعه یافته است. محققان دانشگاه جانز هاپکینز در بالتیمور و دانشگاه دوک در دورهام، N.C، بخشی از گروه پشت این الگوریتم هستند و یافته های خود را در می ۲۰۲۴ در سمپوزیوم IEEE در مورد امنیت و حریم خصوصی در سانفرانسیسکو ارائه خواهند کرد.

مولدهای هنر هوش مصنوعی، مشابه آنهایی که چت ربات های هوش مصنوعی مانند ChatGPT را تامین می کنند، اغلب از مدل های زبان بزرگ استفاده می کنند. این مدل‌ها به‌عنوان نسخه‌های پیشرفته ویژگی تکمیل خودکار موجود در تلفن‌های هوشمند عمل می‌کنند و کلمه بعدی را که ممکن است شخص تایپ کند، پیش‌بینی می‌کنند.

اکثر تولیدکنندگان هنر آنلاین دارای فیلترهای ایمنی برای رد درخواست برای محتوای نامناسب هستند. با این حال، محققان جانز هاپکینز و دوک یک چارچوب حمله خودکار به نام SneakyPrompt ایجاد کرده اند تا این فیلترهای ایمنی را در هوش مصنوعی مولد متن به تصویر آزمایش کنند.

آزمایش بر روی مولد عکس هوش مصنوعی

محققان با اعلان‌هایی شروع کردند که فیلترهای ایمنی را مسدود می‌کردند و از SneakyPrompt برای آزمایش گزینه‌های جایگزین برای کلمات فیلتر شده استفاده کردند. این الگوریتم به تدریج این گزینه ها را تنظیم کرد تا دستوراتی را پیدا کند که بتواند فیلترهای ایمنی را دور بزند و تصاویر تولید کند.

فیلترهای ایمنی فقط عبارات صریح را بررسی نمی کنند. آنها همچنین به دنبال عباراتی هستند که به شدت با کلمات ممنوعه مرتبط است.

محققان دریافتند که کلمات نا مناسب می‌توانند هوش مصنوعی‌های مولد را وادار به تولید تصاویر نا مناسب کنند.

مشخص نیست که چرا هوش مصنوعی مولد کلمات نامفهوم را به عنوان دستور اشتباه می گیرند. محققان پیشنهاد می‌کنند که این سیستم‌ها بر روی زبان‌های مختلف آموزش داده می‌شوند و برخی از هجاها یا ترکیب‌های مشابه «thwif» در زبان‌های دیگر ممکن است با کلماتی مانند cat مرتبط باشد.

محققان همچنین دریافتند که کلمات بی معنی می توانند هوش مصنوعی مولد را به تولید تصاویر غیرایمن برای کار (NSFW) سوق دهند. ممکن است فیلترهای ایمنی این اعلان‌ها را به‌عنوان پیوند نزدیک با عبارات ممنوعه نبینند، اما هوش مصنوعی همچنان آنها را به‌عنوان دستوراتی برای ایجاد محتوای نامناسب تفسیر می‌کند.

علاوه بر کلمات مزخرف، محققان دریافتند که هوش مصنوعی مولد می تواند کلمات معمولی را با کلمات معمولی دیگر اشتباه بگیرد. برای مثال، DALL-E 2 بسته به زمینه، می‌تواند «گلوکز» را با گربه و «نگهداری» را با سگ اشتباه بگیرد.

تلاش‌های دستی قبلی برای دور زدن فیلترهای ایمنی محدود به هوش مصنوعی مولد خاصی بود و نمی‌توان آن را برای سایر سیستم‌های تبدیل متن به تصویر اعمال کرد. با این حال، SneakyPrompt روی DALL-E 2 و Stable Diffusion کار کرد.

در حالی که تلاش های دستی تقریباً ۳۳ درصد موفقیت داشتند، SneakyPrompt به میانگین نرخ بای پس حدود ۹۶ درصد در برابر انتشار پایدار و تقریباً ۵۷ درصد با DALL-E 2 دست یافت.

این یافته ها بهره برداری بالقوه از هوش مصنوعی مولد برای ایجاد محتوای مخرب را برجسته می کند. هدف محققان کشف راه‌هایی برای افزایش استحکام هوش مصنوعی‌های مولد در برابر چنین حملاتی است و بر اهمیت درک ضعف‌های مدل هوش مصنوعی و مقاوم‌سازی آن‌ها در برابر تلاش‌های متخاصم تاکید می‌کند.