ChatPaper.aiChatPaper

Fusión de Tokens Negativos: Orientación de Características Adversarias basada en Imágenes

Negative Token Merging: Image-based Adversarial Feature Guidance

December 2, 2024
Autores: Jaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer
cs.AI

Resumen

La orientación adversarial basada en texto utilizando una indicación negativa ha surgido como un enfoque ampliamente adoptado para alejar las características de salida de conceptos no deseados. Si bien es útil, realizar orientación adversarial solo con texto puede ser insuficiente para capturar conceptos visuales complejos y evitar elementos visuales no deseados como personajes con derechos de autor. En este documento, exploramos por primera vez una modalidad alternativa en esta dirección al realizar orientación adversarial directamente utilizando características visuales de una imagen de referencia u otras imágenes en un lote. En particular, presentamos la fusión de tokens negativos (NegToMe), un enfoque simple pero efectivo que, sin necesidad de entrenamiento, realiza orientación adversarial al separar selectivamente las características semánticas coincidentes (entre la referencia y la generación de salida) durante el proceso de difusión inversa. Cuando se utiliza con otras imágenes en el mismo lote, observamos que NegToMe aumenta significativamente la diversidad de salida (racial, de género, visual) sin sacrificar la calidad de la imagen de salida. De manera similar, al utilizarse con un activo con derechos de autor de referencia, NegToMe ayuda a reducir la similitud visual con contenido con derechos de autor en un 34.57%. NegToMe es fácil de implementar con solo unas pocas líneas de código, utiliza solo tiempos de inferencia ligeramente más altos (<4%) y se generaliza a diferentes arquitecturas de difusión como Flux, que no admiten nativamente el uso de una indicación negativa separada. El código está disponible en https://negtome.github.io
English
Text-based adversarial guidance using a negative prompt has emerged as a widely adopted approach to push the output features away from undesired concepts. While useful, performing adversarial guidance using text alone can be insufficient to capture complex visual concepts and avoid undesired visual elements like copyrighted characters. In this paper, for the first time we explore an alternate modality in this direction by performing adversarial guidance directly using visual features from a reference image or other images in a batch. In particular, we introduce negative token merging (NegToMe), a simple but effective training-free approach which performs adversarial guidance by selectively pushing apart matching semantic features (between reference and output generation) during the reverse diffusion process. When used w.r.t. other images in the same batch, we observe that NegToMe significantly increases output diversity (racial, gender, visual) without sacrificing output image quality. Similarly, when used w.r.t. a reference copyrighted asset, NegToMe helps reduce visual similarity with copyrighted content by 34.57%. NegToMe is simple to implement using just few-lines of code, uses only marginally higher (<4%) inference times and generalizes to different diffusion architectures like Flux, which do not natively support the use of a separate negative prompt. Code is available at https://negtome.github.io

Summary

AI-Generated Summary

PDF236December 6, 2024