Orientação por Perturbação de Tokens para Modelos de Difusão
Token Perturbation Guidance for Diffusion Models
June 10, 2025
Autores: Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati
cs.AI
Resumo
A orientação sem classificador (CFG, do inglês Classifier-Free Guidance) tornou-se um componente essencial dos modelos de difusão modernos para melhorar tanto a qualidade da geração quanto o alinhamento com as condições de entrada. No entanto, a CFG requer procedimentos de treinamento específicos e é limitada à geração condicional. Para abordar essas limitações, propomos a Orientação por Perturbação de Tokens (TPG, do inglês Token Perturbation Guidance), um método novo que aplica matrizes de perturbação diretamente às representações intermediárias de tokens dentro da rede de difusão. A TPG emprega uma operação de embaralhamento que preserva a norma para fornecer sinais de orientação eficazes e estáveis que melhoram a qualidade da geração sem alterações arquitetônicas. Como resultado, a TPG é livre de treinamento e agnóstica às condições de entrada, tornando-a prontamente aplicável tanto à geração condicional quanto à incondicional. Analisamos ainda o termo de orientação fornecido pela TPG e mostramos que seu efeito na amostragem se assemelha mais à CFG em comparação com as técnicas de orientação existentes que não requerem treinamento. Experimentos extensivos no SDXL e no Stable Diffusion 2.1 mostram que a TPG alcança uma melhoria de quase 2 vezes no FID para geração incondicional em relação à linha de base do SDXL, ao mesmo tempo que se aproxima da CFG no alinhamento com prompts. Esses resultados estabelecem a TPG como um método de orientação geral e agnóstico a condições, que traz benefícios semelhantes aos da CFG para uma classe mais ampla de modelos de difusão. O código está disponível em https://github.com/TaatiTeam/Token-Perturbation-Guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern
diffusion models to enhance both generation quality and alignment with input
conditions. However, CFG requires specific training procedures and is limited
to conditional generation. To address these limitations, we propose Token
Perturbation Guidance (TPG), a novel method that applies perturbation matrices
directly to intermediate token representations within the diffusion network.
TPG employs a norm-preserving shuffling operation to provide effective and
stable guidance signals that improve generation quality without architectural
changes. As a result, TPG is training-free and agnostic to input conditions,
making it readily applicable to both conditional and unconditional generation.
We further analyze the guidance term provided by TPG and show that its effect
on sampling more closely resembles CFG compared to existing training-free
guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1
show that TPG achieves nearly a 2times improvement in FID for unconditional
generation over the SDXL baseline, while closely matching CFG in prompt
alignment. These results establish TPG as a general, condition-agnostic
guidance method that brings CFG-like benefits to a broader class of diffusion
models. The code is available at
https://github.com/TaatiTeam/Token-Perturbation-Guidance