کلمات بیهوده می توانند هوش مصنوعی های تولیدکننده متن به تصویر محبوب مانند DALL-E 2 و Midjourney را فریب دهند تا تصاویر نامناسبی مانند محتوای نامناسب یا خشونت آمیز ایجاد کنند. الگوریتم جدیدی برای تولید این دستورات و آزمایش فیلترهای ایمنی هوش مصنوعی با هدف بهبود این حفاظت ها در آینده توسعه یافته است. محققان دانشگاه جانز هاپکینز در بالتیمور و دانشگاه دوک در دورهام، N.C، بخشی از گروه پشت این الگوریتم هستند و یافته های خود را در می ۲۰۲۴ در سمپوزیوم IEEE در مورد امنیت و حریم خصوصی در سانفرانسیسکو ارائه خواهند کرد.
مولدهای هنر هوش مصنوعی، مشابه آنهایی که چت ربات های هوش مصنوعی مانند ChatGPT را تامین می کنند، اغلب از مدل های زبان بزرگ استفاده می کنند. این مدلها بهعنوان نسخههای پیشرفته ویژگی تکمیل خودکار موجود در تلفنهای هوشمند عمل میکنند و کلمه بعدی را که ممکن است شخص تایپ کند، پیشبینی میکنند.
اکثر تولیدکنندگان هنر آنلاین دارای فیلترهای ایمنی برای رد درخواست برای محتوای نامناسب هستند. با این حال، محققان جانز هاپکینز و دوک یک چارچوب حمله خودکار به نام SneakyPrompt ایجاد کرده اند تا این فیلترهای ایمنی را در هوش مصنوعی مولد متن به تصویر آزمایش کنند.
آزمایش بر روی مولد عکس هوش مصنوعی
محققان با اعلانهایی شروع کردند که فیلترهای ایمنی را مسدود میکردند و از SneakyPrompt برای آزمایش گزینههای جایگزین برای کلمات فیلتر شده استفاده کردند. این الگوریتم به تدریج این گزینه ها را تنظیم کرد تا دستوراتی را پیدا کند که بتواند فیلترهای ایمنی را دور بزند و تصاویر تولید کند.
فیلترهای ایمنی فقط عبارات صریح را بررسی نمی کنند. آنها همچنین به دنبال عباراتی هستند که به شدت با کلمات ممنوعه مرتبط است.
محققان دریافتند که کلمات نا مناسب میتوانند هوش مصنوعیهای مولد را وادار به تولید تصاویر نا مناسب کنند.
مشخص نیست که چرا هوش مصنوعی مولد کلمات نامفهوم را به عنوان دستور اشتباه می گیرند. محققان پیشنهاد میکنند که این سیستمها بر روی زبانهای مختلف آموزش داده میشوند و برخی از هجاها یا ترکیبهای مشابه «thwif» در زبانهای دیگر ممکن است با کلماتی مانند cat مرتبط باشد.
محققان همچنین دریافتند که کلمات بی معنی می توانند هوش مصنوعی مولد را به تولید تصاویر غیرایمن برای کار (NSFW) سوق دهند. ممکن است فیلترهای ایمنی این اعلانها را بهعنوان پیوند نزدیک با عبارات ممنوعه نبینند، اما هوش مصنوعی همچنان آنها را بهعنوان دستوراتی برای ایجاد محتوای نامناسب تفسیر میکند.
علاوه بر کلمات مزخرف، محققان دریافتند که هوش مصنوعی مولد می تواند کلمات معمولی را با کلمات معمولی دیگر اشتباه بگیرد. برای مثال، DALL-E 2 بسته به زمینه، میتواند «گلوکز» را با گربه و «نگهداری» را با سگ اشتباه بگیرد.
تلاشهای دستی قبلی برای دور زدن فیلترهای ایمنی محدود به هوش مصنوعی مولد خاصی بود و نمیتوان آن را برای سایر سیستمهای تبدیل متن به تصویر اعمال کرد. با این حال، SneakyPrompt روی DALL-E 2 و Stable Diffusion کار کرد.
در حالی که تلاش های دستی تقریباً ۳۳ درصد موفقیت داشتند، SneakyPrompt به میانگین نرخ بای پس حدود ۹۶ درصد در برابر انتشار پایدار و تقریباً ۵۷ درصد با DALL-E 2 دست یافت.
این یافته ها بهره برداری بالقوه از هوش مصنوعی مولد برای ایجاد محتوای مخرب را برجسته می کند. هدف محققان کشف راههایی برای افزایش استحکام هوش مصنوعیهای مولد در برابر چنین حملاتی است و بر اهمیت درک ضعفهای مدل هوش مصنوعی و مقاومسازی آنها در برابر تلاشهای متخاصم تاکید میکند.