Ataque de Marcação Silenciosa: Ataque de Envenenamento de Dados Sem Gatilho em Modelos de Difusão de Texto para Imagem
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
March 12, 2025
Autores: Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
cs.AI
Resumo
Modelos de difusão de texto para imagem alcançaram sucesso notável na geração de conteúdos de alta qualidade a partir de prompts de texto. No entanto, sua dependência de dados publicamente disponíveis e a crescente tendência de compartilhamento de dados para ajuste fino tornam esses modelos particularmente vulneráveis a ataques de envenenamento de dados. Neste trabalho, introduzimos o Ataque de Marcação Silenciosa, um novo método de envenenamento de dados que manipula modelos de difusão de texto para imagem para gerar imagens contendo logotipos ou símbolos de marcas específicas sem qualquer gatilho de texto. Descobrimos que, quando certos padrões visuais estão repetidamente presentes nos dados de treinamento, o modelo aprende a reproduzi-los naturalmente em suas saídas, mesmo sem menções no prompt. Aproveitando isso, desenvolvemos um algoritmo automatizado de envenenamento de dados que injeta logotipos de forma discreta em imagens originais, garantindo que eles se integrem naturalmente e permaneçam indetectáveis. Modelos treinados nesse conjunto de dados envenenados geram imagens contendo logotipos sem degradar a qualidade da imagem ou o alinhamento do texto. Validamos experimentalmente nosso ataque de marcação silenciosa em dois cenários realistas, utilizando grandes conjuntos de dados de imagens de alta qualidade e conjuntos de dados de personalização de estilo, alcançando altas taxas de sucesso mesmo sem um gatilho de texto específico. Avaliações humanas e métricas quantitativas, incluindo detecção de logotipos, mostram que nosso método pode incorporar logotipos de forma furtiva.
English
Text-to-image diffusion models have achieved remarkable success in generating
high-quality contents from text prompts. However, their reliance on publicly
available data and the growing trend of data sharing for fine-tuning make these
models particularly vulnerable to data poisoning attacks. In this work, we
introduce the Silent Branding Attack, a novel data poisoning method that
manipulates text-to-image diffusion models to generate images containing
specific brand logos or symbols without any text triggers. We find that when
certain visual patterns are repeatedly in the training data, the model learns
to reproduce them naturally in its outputs, even without prompt mentions.
Leveraging this, we develop an automated data poisoning algorithm that
unobtrusively injects logos into original images, ensuring they blend naturally
and remain undetected. Models trained on this poisoned dataset generate images
containing logos without degrading image quality or text alignment. We
experimentally validate our silent branding attack across two realistic
settings on large-scale high-quality image datasets and style personalization
datasets, achieving high success rates even without a specific text trigger.
Human evaluation and quantitative metrics including logo detection show that
our method can stealthily embed logos.Summary
AI-Generated Summary