Fusión de Tokens Negativos: Orientación de Características Adversarias basada en Imágenes
Negative Token Merging: Image-based Adversarial Feature Guidance
December 2, 2024
Autores: Jaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer
cs.AI
Resumen
La orientación adversarial basada en texto utilizando una indicación negativa ha surgido como un enfoque ampliamente adoptado para alejar las características de salida de conceptos no deseados. Si bien es útil, realizar orientación adversarial solo con texto puede ser insuficiente para capturar conceptos visuales complejos y evitar elementos visuales no deseados como personajes con derechos de autor. En este documento, exploramos por primera vez una modalidad alternativa en esta dirección al realizar orientación adversarial directamente utilizando características visuales de una imagen de referencia u otras imágenes en un lote. En particular, presentamos la fusión de tokens negativos (NegToMe), un enfoque simple pero efectivo que, sin necesidad de entrenamiento, realiza orientación adversarial al separar selectivamente las características semánticas coincidentes (entre la referencia y la generación de salida) durante el proceso de difusión inversa. Cuando se utiliza con otras imágenes en el mismo lote, observamos que NegToMe aumenta significativamente la diversidad de salida (racial, de género, visual) sin sacrificar la calidad de la imagen de salida. De manera similar, al utilizarse con un activo con derechos de autor de referencia, NegToMe ayuda a reducir la similitud visual con contenido con derechos de autor en un 34.57%. NegToMe es fácil de implementar con solo unas pocas líneas de código, utiliza solo tiempos de inferencia ligeramente más altos (<4%) y se generaliza a diferentes arquitecturas de difusión como Flux, que no admiten nativamente el uso de una indicación negativa separada. El código está disponible en https://negtome.github.io
English
Text-based adversarial guidance using a negative prompt has emerged as a
widely adopted approach to push the output features away from undesired
concepts. While useful, performing adversarial guidance using text alone can be
insufficient to capture complex visual concepts and avoid undesired visual
elements like copyrighted characters. In this paper, for the first time we
explore an alternate modality in this direction by performing adversarial
guidance directly using visual features from a reference image or other images
in a batch. In particular, we introduce negative token merging (NegToMe), a
simple but effective training-free approach which performs adversarial guidance
by selectively pushing apart matching semantic features (between reference and
output generation) during the reverse diffusion process. When used w.r.t. other
images in the same batch, we observe that NegToMe significantly increases
output diversity (racial, gender, visual) without sacrificing output image
quality. Similarly, when used w.r.t. a reference copyrighted asset, NegToMe
helps reduce visual similarity with copyrighted content by 34.57%. NegToMe is
simple to implement using just few-lines of code, uses only marginally higher
(<4%) inference times and generalizes to different diffusion architectures like
Flux, which do not natively support the use of a separate negative prompt. Code
is available at https://negtome.github.ioSummary
AI-Generated Summary