サイレントブランディング攻撃:テキストから画像への拡散モデルに対するトリガーフリーのデータ汚染攻撃
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
March 12, 2025
著者: Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
cs.AI
要旨
テキストから画像を生成する拡散モデルは、テキストプロンプトから高品質なコンテンツを生成するという顕著な成功を収めています。しかし、これらのモデルは公開されているデータに依存しており、ファインチューニングのためのデータ共有が増加していることから、データポイズニング攻撃に対して特に脆弱です。本研究では、特定のブランドロゴやシンボルを含む画像をテキストトリガーなしで生成するようにテキストから画像を生成する拡散モデルを操作する、新たなデータポイズニング手法である「Silent Branding Attack」を提案します。特定の視覚パターンがトレーニングデータに繰り返し現れると、モデルはプロンプトに言及されなくても自然にそれらを出力に再現することを発見しました。これを利用して、オリジナル画像にロゴを自然に溶け込ませ、検出されないようにする自動化されたデータポイズニングアルゴリズムを開発しました。このポイズニングされたデータセットでトレーニングされたモデルは、画像品質やテキストの整合性を損なうことなくロゴを含む画像を生成します。大規模な高品質画像データセットとスタイルパーソナライゼーションデータセットを用いた2つの現実的な設定で、Silent Branding Attackを実験的に検証し、特定のテキストトリガーなしでも高い成功率を達成しました。人間による評価とロゴ検出を含む定量的な指標により、本手法がロゴをステルスに埋め込むことができることが示されました。
English
Text-to-image diffusion models have achieved remarkable success in generating
high-quality contents from text prompts. However, their reliance on publicly
available data and the growing trend of data sharing for fine-tuning make these
models particularly vulnerable to data poisoning attacks. In this work, we
introduce the Silent Branding Attack, a novel data poisoning method that
manipulates text-to-image diffusion models to generate images containing
specific brand logos or symbols without any text triggers. We find that when
certain visual patterns are repeatedly in the training data, the model learns
to reproduce them naturally in its outputs, even without prompt mentions.
Leveraging this, we develop an automated data poisoning algorithm that
unobtrusively injects logos into original images, ensuring they blend naturally
and remain undetected. Models trained on this poisoned dataset generate images
containing logos without degrading image quality or text alignment. We
experimentally validate our silent branding attack across two realistic
settings on large-scale high-quality image datasets and style personalization
datasets, achieving high success rates even without a specific text trigger.
Human evaluation and quantitative metrics including logo detection show that
our method can stealthily embed logos.Summary
AI-Generated Summary