Guida alla Perturbazione dei Token per Modelli di Diffusione
Token Perturbation Guidance for Diffusion Models
June 10, 2025
Autori: Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati
cs.AI
Abstract
La guida senza classificatore (Classifier-free Guidance, CFG) è diventata un componente essenziale dei moderni modelli di diffusione per migliorare sia la qualità della generazione che l'allineamento con le condizioni di input. Tuttavia, la CFG richiede procedure di addestramento specifiche ed è limitata alla generazione condizionata. Per affrontare queste limitazioni, proponiamo la Guida per Perturbazione dei Token (Token Perturbation Guidance, TPG), un metodo innovativo che applica matrici di perturbazione direttamente alle rappresentazioni intermedie dei token all'interno della rete di diffusione. La TPG utilizza un'operazione di rimescolamento che preserva la norma per fornire segnali di guida efficaci e stabili, migliorando la qualità della generazione senza modifiche architetturali. Di conseguenza, la TPG è priva di addestramento e agnostica rispetto alle condizioni di input, rendendola facilmente applicabile sia alla generazione condizionata che a quella incondizionata. Analizziamo ulteriormente il termine di guida fornito dalla TPG e dimostriamo che il suo effetto sul campionamento assomiglia più da vicino alla CFG rispetto alle tecniche di guida esistenti prive di addestramento. Esperimenti estesi su SDXL e Stable Diffusion 2.1 mostrano che la TPG raggiunge un miglioramento di quasi 2 volte nell'FID per la generazione incondizionata rispetto alla baseline di SDXL, mentre si avvicina molto alla CFG nell'allineamento con i prompt. Questi risultati stabiliscono la TPG come un metodo di guida generale e agnostico alle condizioni, che porta i benefici simili alla CFG a una più ampia classe di modelli di diffusione. Il codice è disponibile all'indirizzo https://github.com/TaatiTeam/Token-Perturbation-Guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern
diffusion models to enhance both generation quality and alignment with input
conditions. However, CFG requires specific training procedures and is limited
to conditional generation. To address these limitations, we propose Token
Perturbation Guidance (TPG), a novel method that applies perturbation matrices
directly to intermediate token representations within the diffusion network.
TPG employs a norm-preserving shuffling operation to provide effective and
stable guidance signals that improve generation quality without architectural
changes. As a result, TPG is training-free and agnostic to input conditions,
making it readily applicable to both conditional and unconditional generation.
We further analyze the guidance term provided by TPG and show that its effect
on sampling more closely resembles CFG compared to existing training-free
guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1
show that TPG achieves nearly a 2times improvement in FID for unconditional
generation over the SDXL baseline, while closely matching CFG in prompt
alignment. These results establish TPG as a general, condition-agnostic
guidance method that brings CFG-like benefits to a broader class of diffusion
models. The code is available at
https://github.com/TaatiTeam/Token-Perturbation-Guidance