Ataque Silencioso de Marca: Intoxicación de Datos sin Disparadores en Modelos de Difusión de Texto a Imagen
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
March 12, 2025
Autores: Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
cs.AI
Resumen
Los modelos de difusión de texto a imagen han logrado un éxito notable en la generación de contenidos de alta calidad a partir de indicaciones de texto. Sin embargo, su dependencia de datos disponibles públicamente y la creciente tendencia de compartir datos para ajustes finos hacen que estos modelos sean particularmente vulnerables a ataques de envenenamiento de datos. En este trabajo, presentamos el Ataque de Marcado Silencioso, un método novedoso de envenenamiento de datos que manipula modelos de difusión de texto a imagen para generar imágenes que contienen logotipos o símbolos de marcas específicas sin necesidad de desencadenantes de texto. Descubrimos que cuando ciertos patrones visuales se repiten en los datos de entrenamiento, el modelo aprende a reproducirlos naturalmente en sus salidas, incluso sin menciones en las indicaciones. Aprovechando esto, desarrollamos un algoritmo automatizado de envenenamiento de datos que inyecta logotipos de manera discreta en imágenes originales, asegurando que se integren naturalmente y pasen desapercibidos. Los modelos entrenados con este conjunto de datos envenenado generan imágenes que contienen logotipos sin degradar la calidad de la imagen o la alineación del texto. Validamos experimentalmente nuestro ataque de marcado silencioso en dos escenarios realistas utilizando conjuntos de datos de imágenes de alta calidad a gran escala y conjuntos de datos de personalización de estilo, logrando altas tasas de éxito incluso sin un desencadenante de texto específico. La evaluación humana y las métricas cuantitativas, incluida la detección de logotipos, muestran que nuestro método puede incrustar logotipos de manera sigilosa.
English
Text-to-image diffusion models have achieved remarkable success in generating
high-quality contents from text prompts. However, their reliance on publicly
available data and the growing trend of data sharing for fine-tuning make these
models particularly vulnerable to data poisoning attacks. In this work, we
introduce the Silent Branding Attack, a novel data poisoning method that
manipulates text-to-image diffusion models to generate images containing
specific brand logos or symbols without any text triggers. We find that when
certain visual patterns are repeatedly in the training data, the model learns
to reproduce them naturally in its outputs, even without prompt mentions.
Leveraging this, we develop an automated data poisoning algorithm that
unobtrusively injects logos into original images, ensuring they blend naturally
and remain undetected. Models trained on this poisoned dataset generate images
containing logos without degrading image quality or text alignment. We
experimentally validate our silent branding attack across two realistic
settings on large-scale high-quality image datasets and style personalization
datasets, achieving high success rates even without a specific text trigger.
Human evaluation and quantitative metrics including logo detection show that
our method can stealthily embed logos.Summary
AI-Generated Summary