ChatPaper.aiChatPaper

Attaque de Marquage Silencieux : Empoisonnement de Données Sans Déclencheur sur les Modèles de Diffusion Texte-Image

Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

March 12, 2025
Auteurs: Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
cs.AI

Résumé

Les modèles de diffusion texte-image ont obtenu un succès remarquable dans la génération de contenus de haute qualité à partir de prompts textuels. Cependant, leur dépendance à des données publiquement disponibles et la tendance croissante au partage de données pour le fine-tuning rendent ces modèles particulièrement vulnérables aux attaques par empoisonnement de données. Dans ce travail, nous introduisons l'attaque de marquage silencieux, une nouvelle méthode d'empoisonnement de données qui manipule les modèles de diffusion texte-image pour générer des images contenant des logos ou symboles de marque spécifiques sans aucun déclencheur textuel. Nous constatons que lorsque certains motifs visuels sont répétés dans les données d'entraînement, le modèle apprend à les reproduire naturellement dans ses sorties, même sans mention explicite dans le prompt. En exploitant cela, nous développons un algorithme automatisé d'empoisonnement de données qui injecte discrètement des logos dans des images originales, en veillant à ce qu'ils s'intègrent naturellement et restent indétectables. Les modèles entraînés sur cet ensemble de données empoisonné génèrent des images contenant des logos sans dégrader la qualité de l'image ou l'alignement avec le texte. Nous validons expérimentalement notre attaque de marquage silencieux dans deux scénarios réalistes sur des ensembles de données d'images de grande qualité à grande échelle et des ensembles de données de personnalisation de style, obtenant des taux de réussite élevés même sans déclencheur textuel spécifique. L'évaluation humaine et les métriques quantitatives, y compris la détection de logos, montrent que notre méthode peut intégrer des logos de manière furtive.
English
Text-to-image diffusion models have achieved remarkable success in generating high-quality contents from text prompts. However, their reliance on publicly available data and the growing trend of data sharing for fine-tuning make these models particularly vulnerable to data poisoning attacks. In this work, we introduce the Silent Branding Attack, a novel data poisoning method that manipulates text-to-image diffusion models to generate images containing specific brand logos or symbols without any text triggers. We find that when certain visual patterns are repeatedly in the training data, the model learns to reproduce them naturally in its outputs, even without prompt mentions. Leveraging this, we develop an automated data poisoning algorithm that unobtrusively injects logos into original images, ensuring they blend naturally and remain undetected. Models trained on this poisoned dataset generate images containing logos without degrading image quality or text alignment. We experimentally validate our silent branding attack across two realistic settings on large-scale high-quality image datasets and style personalization datasets, achieving high success rates even without a specific text trigger. Human evaluation and quantitative metrics including logo detection show that our method can stealthily embed logos.

Summary

AI-Generated Summary

PDF362March 14, 2025