Тихая атака на брендинг: Атака на отравление данных без триггеров в моделях диффузии текст-изображение

Аннотация

Модели диффузии для генерации изображений из текста достигли значительных успехов в создании высококачественного контента на основе текстовых запросов. Однако их зависимость от общедоступных данных и растущая тенденция к обмену данными для тонкой настройки делают эти модели особенно уязвимыми для атак с использованием отравления данных. В данной работе мы представляем Silent Branding Attack — новый метод отравления данных, который манипулирует моделями генерации изображений из текста, заставляя их создавать изображения с определенными логотипами или символами без каких-либо текстовых триггеров. Мы обнаружили, что если определенные визуальные паттерны часто встречаются в обучающих данных, модель учится воспроизводить их естественным образом в своих выходах, даже без упоминания в запросе. Используя это, мы разработали автоматизированный алгоритм отравления данных, который незаметно внедряет логотипы в исходные изображения, обеспечивая их естественное встраивание и незаметность. Модели, обученные на таких отравленных данных, генерируют изображения с логотипами без ухудшения качества изображения или соответствия тексту. Мы экспериментально подтвердили эффективность нашей атаки Silent Branding в двух реалистичных сценариях на крупных наборах данных высококачественных изображений и наборах данных для персонализации стилей, достигнув высоких показателей успеха даже без конкретного текстового триггера. Человеческая оценка и количественные метрики, включая обнаружение логотипов, показывают, что наш метод может незаметно внедрять логотипы.

English

Text-to-image diffusion models have achieved remarkable success in generating high-quality contents from text prompts. However, their reliance on publicly available data and the growing trend of data sharing for fine-tuning make these models particularly vulnerable to data poisoning attacks. In this work, we introduce the Silent Branding Attack, a novel data poisoning method that manipulates text-to-image diffusion models to generate images containing specific brand logos or symbols without any text triggers. We find that when certain visual patterns are repeatedly in the training data, the model learns to reproduce them naturally in its outputs, even without prompt mentions. Leveraging this, we develop an automated data poisoning algorithm that unobtrusively injects logos into original images, ensuring they blend naturally and remain undetected. Models trained on this poisoned dataset generate images containing logos without degrading image quality or text alignment. We experimentally validate our silent branding attack across two realistic settings on large-scale high-quality image datasets and style personalization datasets, achieving high success rates even without a specific text trigger. Human evaluation and quantitative metrics including logo detection show that our method can stealthily embed logos.

Тихая атака на брендинг: Атака на отравление данных без триггеров в моделях диффузии текст-изображение

Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

Аннотация

Support