Stille Branding Aanval: Trigger-vrije Data Vergiftigingsaanval op Tekst-naar-Beeld Diffusiemodellen
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
March 12, 2025
Auteurs: Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
cs.AI
Samenvatting
Text-to-image diffusiemodellen hebben opmerkelijke successen geboekt in het genereren van hoogwaardige inhoud op basis van tekstprompts. Hun afhankelijkheid van publiek beschikbare data en de groeiende trend van het delen van data voor fine-tuning maken deze modellen echter bijzonder kwetsbaar voor datavergiftigingsaanvallen. In dit werk introduceren we de Silent Branding Attack, een nieuwe methode voor datavergiftiging die text-to-image diffusiemodellen manipuleert om afbeeldingen te genereren die specifieke merkenlogo's of symbolen bevatten zonder enige tekstuele triggers. We ontdekken dat wanneer bepaalde visuele patronen herhaaldelijk in de trainingsdata voorkomen, het model leert deze van nature in zijn uitvoer te reproduceren, zelfs zonder vermelding in de prompt. Hierop voortbouwend ontwikkelen we een geautomatiseerd datavergiftigingsalgoritme dat logo's onopvallend in originele afbeeldingen injecteert, waardoor ze natuurlijk integreren en onopgemerkt blijven. Modellen die op deze vergiftigde dataset zijn getraind, genereren afbeeldingen met logo's zonder de beeldkwaliteit of tekstuitlijning te verslechteren. We valideren onze silent branding attack experimenteel in twee realistische scenario's op grootschalige, hoogwaardige afbeeldingsdatasets en datasets voor stijlpersonalisatie, waarbij we hoge slagingspercentages behalen zelfs zonder specifieke tekstuele trigger. Menselijke evaluatie en kwantitatieve metingen, waaronder logo-detectie, tonen aan dat onze methode logo's onopvallend kan inbedden.
English
Text-to-image diffusion models have achieved remarkable success in generating
high-quality contents from text prompts. However, their reliance on publicly
available data and the growing trend of data sharing for fine-tuning make these
models particularly vulnerable to data poisoning attacks. In this work, we
introduce the Silent Branding Attack, a novel data poisoning method that
manipulates text-to-image diffusion models to generate images containing
specific brand logos or symbols without any text triggers. We find that when
certain visual patterns are repeatedly in the training data, the model learns
to reproduce them naturally in its outputs, even without prompt mentions.
Leveraging this, we develop an automated data poisoning algorithm that
unobtrusively injects logos into original images, ensuring they blend naturally
and remain undetected. Models trained on this poisoned dataset generate images
containing logos without degrading image quality or text alignment. We
experimentally validate our silent branding attack across two realistic
settings on large-scale high-quality image datasets and style personalization
datasets, achieving high success rates even without a specific text trigger.
Human evaluation and quantitative metrics including logo detection show that
our method can stealthily embed logos.Summary
AI-Generated Summary