무음 브랜딩 공격: 트리거 없는 데이터 중독 공격을 통한 텍스트-이미지 확산 모델 공격
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
March 12, 2025
저자: Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
cs.AI
초록
텍스트-이미지 확산 모델은 텍스트 프롬프트로부터 고품질 콘텐츠를 생성하는 데 있어 놀라운 성과를 거두었습니다. 그러나 이러한 모델들은 공개적으로 이용 가능한 데이터에 의존하며, 미세 조정을 위한 데이터 공유가 증가하는 추세로 인해 데이터 중독 공격에 특히 취약합니다. 본 연구에서는 특정 브랜드 로고나 상징을 텍스트 트리거 없이도 생성하도록 텍스트-이미지 확산 모델을 조작하는 새로운 데이터 중독 기법인 'Silent Branding Attack'을 소개합니다. 우리는 특정 시각적 패턴이 훈련 데이터에서 반복적으로 등장할 경우, 모델이 이를 자연스럽게 출력물에 재현하는 것을 발견했습니다. 이를 활용하여, 원본 이미지에 로고를 자연스럽게 혼합하고 탐지되지 않도록 하는 자동화된 데이터 중독 알고리즘을 개발했습니다. 이 중독된 데이터셋으로 훈련된 모델은 이미지 품질이나 텍스트 정렬을 저하시키지 않으면서도 로고가 포함된 이미지를 생성합니다. 우리는 대규모 고품질 이미지 데이터셋과 스타일 개인화 데이터셋에서 두 가지 현실적인 설정에 걸쳐 Silent Branding Attack을 실험적으로 검증하였으며, 특정 텍스트 트리거 없이도 높은 성공률을 달성했습니다. 인간 평가 및 로고 탐지를 포함한 정량적 지표는 우리의 방법이 로고를 은밀하게 내장할 수 있음을 보여줍니다.
English
Text-to-image diffusion models have achieved remarkable success in generating
high-quality contents from text prompts. However, their reliance on publicly
available data and the growing trend of data sharing for fine-tuning make these
models particularly vulnerable to data poisoning attacks. In this work, we
introduce the Silent Branding Attack, a novel data poisoning method that
manipulates text-to-image diffusion models to generate images containing
specific brand logos or symbols without any text triggers. We find that when
certain visual patterns are repeatedly in the training data, the model learns
to reproduce them naturally in its outputs, even without prompt mentions.
Leveraging this, we develop an automated data poisoning algorithm that
unobtrusively injects logos into original images, ensuring they blend naturally
and remain undetected. Models trained on this poisoned dataset generate images
containing logos without degrading image quality or text alignment. We
experimentally validate our silent branding attack across two realistic
settings on large-scale high-quality image datasets and style personalization
datasets, achieving high success rates even without a specific text trigger.
Human evaluation and quantitative metrics including logo detection show that
our method can stealthily embed logos.Summary
AI-Generated Summary