Attacco Silenzioso di Branding: Avvelenamento dei Dati Senza Trigger per Modelli di Diffusione da Testo a Immagine
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
March 12, 2025
Autori: Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
cs.AI
Abstract
I modelli di diffusione text-to-image hanno ottenuto un successo straordinario nella generazione di contenuti di alta qualità a partire da prompt testuali. Tuttavia, la loro dipendenza da dati pubblicamente disponibili e la crescente tendenza alla condivisione di dati per il fine-tuning rendono questi modelli particolarmente vulnerabili ad attacchi di avvelenamento dei dati. In questo lavoro, introduciamo il Silent Branding Attack, un nuovo metodo di avvelenamento dei dati che manipola i modelli di diffusione text-to-image per generare immagini contenenti loghi o simboli di marchi specifici senza alcun trigger testuale. Abbiamo osservato che quando determinati pattern visivi sono ripetutamente presenti nei dati di training, il modello impara a riprodurli naturalmente nei suoi output, anche senza menzioni esplicite nei prompt. Sfruttando questo fenomeno, sviluppiamo un algoritmo automatizzato di avvelenamento dei dati che inserisce in modo non invasivo loghi nelle immagini originali, assicurandosi che si integrino naturalmente e rimangano non rilevati. I modelli addestrati su questo dataset avvelenato generano immagini contenenti loghi senza degradare la qualità dell'immagine o l'allineamento con il testo. Validiamo sperimentalmente il nostro attacco di silent branding in due contesti realistici su dataset di immagini di alta qualità su larga scala e dataset di personalizzazione dello stile, ottenendo alti tassi di successo anche senza un trigger testuale specifico. La valutazione umana e le metriche quantitative, inclusa la rilevazione dei loghi, dimostrano che il nostro metodo può incorporare loghi in modo subdolo.
English
Text-to-image diffusion models have achieved remarkable success in generating
high-quality contents from text prompts. However, their reliance on publicly
available data and the growing trend of data sharing for fine-tuning make these
models particularly vulnerable to data poisoning attacks. In this work, we
introduce the Silent Branding Attack, a novel data poisoning method that
manipulates text-to-image diffusion models to generate images containing
specific brand logos or symbols without any text triggers. We find that when
certain visual patterns are repeatedly in the training data, the model learns
to reproduce them naturally in its outputs, even without prompt mentions.
Leveraging this, we develop an automated data poisoning algorithm that
unobtrusively injects logos into original images, ensuring they blend naturally
and remain undetected. Models trained on this poisoned dataset generate images
containing logos without degrading image quality or text alignment. We
experimentally validate our silent branding attack across two realistic
settings on large-scale high-quality image datasets and style personalization
datasets, achieving high success rates even without a specific text trigger.
Human evaluation and quantitative metrics including logo detection show that
our method can stealthily embed logos.