ChatPaper.aiChatPaper

ネガティブトークンマージング:画像ベースの敵対的特徴ガイダンス

Negative Token Merging: Image-based Adversarial Feature Guidance

December 2, 2024
著者: Jaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer
cs.AI

要旨

テキストベースの敵対的なガイダンスは、望ましくない概念から出力特徴を遠ざけるための広く採用されているアプローチとして登場しています。有用ではありますが、テキストだけを使用して敵対的なガイダンスを行うことは、複雑な視覚的概念を捉えたり、著作権のあるキャラクターなどの望ましくない視覚的要素を避けるには不十分かもしれません。本論文では、初めて、参照画像やバッチ内の他の画像からの視覚的特徴を直接使用して敵対的なガイダンスを行う方向に取り組みます。具体的には、負のトークンマージング(NegToMe)という、トレーニング不要のシンプルで効果的なアプローチを紹介します。このアプローチは、逆拡散プロセス中に参照と出力生成の間の一致する意味的特徴を選択的に遠ざけることで敵対的なガイダンスを行います。同じバッチ内の他の画像を対象とする場合、NegToMeを使用すると、出力の多様性(人種、性別、視覚的)が著しく向上し、出力画像の品質を損なうことなく、著作権、商標などの視覚的類似性を34.57%削減することが観察されます。NegToMeは、わずか数行のコードを使用して簡単に実装でき、推論時間がわずかに(<4%)増加し、Fluxなどの別個の負のプロンプトの使用をネイティブでサポートしていない異なる拡散アーキテクチャにも一般化されます。コードはhttps://negtome.github.io で入手可能です。
English
Text-based adversarial guidance using a negative prompt has emerged as a widely adopted approach to push the output features away from undesired concepts. While useful, performing adversarial guidance using text alone can be insufficient to capture complex visual concepts and avoid undesired visual elements like copyrighted characters. In this paper, for the first time we explore an alternate modality in this direction by performing adversarial guidance directly using visual features from a reference image or other images in a batch. In particular, we introduce negative token merging (NegToMe), a simple but effective training-free approach which performs adversarial guidance by selectively pushing apart matching semantic features (between reference and output generation) during the reverse diffusion process. When used w.r.t. other images in the same batch, we observe that NegToMe significantly increases output diversity (racial, gender, visual) without sacrificing output image quality. Similarly, when used w.r.t. a reference copyrighted asset, NegToMe helps reduce visual similarity with copyrighted content by 34.57%. NegToMe is simple to implement using just few-lines of code, uses only marginally higher (<4%) inference times and generalizes to different diffusion architectures like Flux, which do not natively support the use of a separate negative prompt. Code is available at https://negtome.github.io

Summary

AI-Generated Summary

PDF236December 6, 2024