Orientación de Perturbación de Tokens para Modelos de Difusión
Token Perturbation Guidance for Diffusion Models
June 10, 2025
Autores: Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati
cs.AI
Resumen
La guía sin clasificador (Classifier-Free Guidance, CFG) se ha convertido en un componente esencial de los modelos de difusión modernos para mejorar tanto la calidad de la generación como la alineación con las condiciones de entrada. Sin embargo, CFG requiere procedimientos de entrenamiento específicos y está limitado a la generación condicional. Para abordar estas limitaciones, proponemos la Guía de Perturbación de Tokens (Token Perturbation Guidance, TPG), un método novedoso que aplica matrices de perturbación directamente a las representaciones intermedias de tokens dentro de la red de difusión. TPG emplea una operación de reordenamiento que preserva la norma para proporcionar señales de guía efectivas y estables que mejoran la calidad de la generación sin cambios arquitectónicos. Como resultado, TPG no requiere entrenamiento y es agnóstico a las condiciones de entrada, lo que lo hace aplicable tanto a la generación condicional como a la incondicional. Además, analizamos el término de guía proporcionado por TPG y demostramos que su efecto en el muestreo se asemeja más a CFG en comparación con las técnicas de guía existentes que no requieren entrenamiento. Experimentos extensos en SDXL y Stable Diffusion 2.1 muestran que TPG logra una mejora de casi 2 veces en el FID para la generación incondicional en comparación con la línea base de SDXL, al tiempo que coincide estrechamente con CFG en la alineación con indicaciones. Estos resultados establecen a TPG como un método de guía general y agnóstico a las condiciones que aporta beneficios similares a CFG a una clase más amplia de modelos de difusión. El código está disponible en https://github.com/TaatiTeam/Token-Perturbation-Guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern
diffusion models to enhance both generation quality and alignment with input
conditions. However, CFG requires specific training procedures and is limited
to conditional generation. To address these limitations, we propose Token
Perturbation Guidance (TPG), a novel method that applies perturbation matrices
directly to intermediate token representations within the diffusion network.
TPG employs a norm-preserving shuffling operation to provide effective and
stable guidance signals that improve generation quality without architectural
changes. As a result, TPG is training-free and agnostic to input conditions,
making it readily applicable to both conditional and unconditional generation.
We further analyze the guidance term provided by TPG and show that its effect
on sampling more closely resembles CFG compared to existing training-free
guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1
show that TPG achieves nearly a 2times improvement in FID for unconditional
generation over the SDXL baseline, while closely matching CFG in prompt
alignment. These results establish TPG as a general, condition-agnostic
guidance method that brings CFG-like benefits to a broader class of diffusion
models. The code is available at
https://github.com/TaatiTeam/Token-Perturbation-Guidance