Guida alla Perturbazione dei Token per Modelli di Diffusione

Abstract

La guida senza classificatore (Classifier-free Guidance, CFG) è diventata un componente essenziale dei moderni modelli di diffusione per migliorare sia la qualità della generazione che l'allineamento con le condizioni di input. Tuttavia, la CFG richiede procedure di addestramento specifiche ed è limitata alla generazione condizionata. Per affrontare queste limitazioni, proponiamo la Guida per Perturbazione dei Token (Token Perturbation Guidance, TPG), un metodo innovativo che applica matrici di perturbazione direttamente alle rappresentazioni intermedie dei token all'interno della rete di diffusione. La TPG utilizza un'operazione di rimescolamento che preserva la norma per fornire segnali di guida efficaci e stabili, migliorando la qualità della generazione senza modifiche architetturali. Di conseguenza, la TPG è priva di addestramento e agnostica rispetto alle condizioni di input, rendendola facilmente applicabile sia alla generazione condizionata che a quella incondizionata. Analizziamo ulteriormente il termine di guida fornito dalla TPG e dimostriamo che il suo effetto sul campionamento assomiglia più da vicino alla CFG rispetto alle tecniche di guida esistenti prive di addestramento. Esperimenti estesi su SDXL e Stable Diffusion 2.1 mostrano che la TPG raggiunge un miglioramento di quasi 2 volte nell'FID per la generazione incondizionata rispetto alla baseline di SDXL, mentre si avvicina molto alla CFG nell'allineamento con i prompt. Questi risultati stabiliscono la TPG come un metodo di guida generale e agnostico alle condizioni, che porta i benefici simili alla CFG a una più ampia classe di modelli di diffusione. Il codice è disponibile all'indirizzo https://github.com/TaatiTeam/Token-Perturbation-Guidance.

English

Classifier-free guidance (CFG) has become an essential component of modern diffusion models to enhance both generation quality and alignment with input conditions. However, CFG requires specific training procedures and is limited to conditional generation. To address these limitations, we propose Token Perturbation Guidance (TPG), a novel method that applies perturbation matrices directly to intermediate token representations within the diffusion network. TPG employs a norm-preserving shuffling operation to provide effective and stable guidance signals that improve generation quality without architectural changes. As a result, TPG is training-free and agnostic to input conditions, making it readily applicable to both conditional and unconditional generation. We further analyze the guidance term provided by TPG and show that its effect on sampling more closely resembles CFG compared to existing training-free guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1 show that TPG achieves nearly a 2times improvement in FID for unconditional generation over the SDXL baseline, while closely matching CFG in prompt alignment. These results establish TPG as a general, condition-agnostic guidance method that brings CFG-like benefits to a broader class of diffusion models. The code is available at https://github.com/TaatiTeam/Token-Perturbation-Guidance

Guida alla Perturbazione dei Token per Modelli di Diffusione

Token Perturbation Guidance for Diffusion Models

Abstract

Support