Guidance par Perturbation de Tokens pour les Modèles de Diffusion
Token Perturbation Guidance for Diffusion Models
June 10, 2025
Auteurs: Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati
cs.AI
Résumé
La guidance sans classifieur (Classifier-Free Guidance, CFG) est devenue un composant essentiel des modèles de diffusion modernes pour améliorer à la fois la qualité de génération et l'alignement avec les conditions d'entrée. Cependant, la CFG nécessite des procédures d'entraînement spécifiques et est limitée à la génération conditionnelle. Pour surmonter ces limitations, nous proposons la **Guidance par Perturbation de Tokens (Token Perturbation Guidance, TPG)**, une méthode novatrice qui applique des matrices de perturbation directement aux représentations intermédiaires des tokens au sein du réseau de diffusion. La TPG utilise une opération de mélange préservant la norme pour fournir des signaux de guidance efficaces et stables, améliorant ainsi la qualité de génération sans modifications architecturales. Par conséquent, la TPG ne nécessite pas d'entraînement et est indépendante des conditions d'entrée, ce qui la rend directement applicable à la génération conditionnelle et non conditionnelle. Nous analysons également le terme de guidance fourni par la TPG et montrons que son effet sur l'échantillonnage ressemble davantage à celui de la CFG par rapport aux techniques de guidance sans entraînement existantes. Des expériences approfondies sur SDXL et Stable Diffusion 2.1 montrent que la TPG permet d'améliorer l'indice FID (Fréchet Inception Distance) d'un facteur proche de 2 pour la génération non conditionnelle par rapport à la base de référence SDXL, tout en atteignant un alignement proche de la CFG avec les prompts. Ces résultats établissent la TPG comme une méthode de guidance générale, indépendante des conditions, qui apporte les avantages de la CFG à une classe plus large de modèles de diffusion. Le code est disponible à l'adresse suivante : https://github.com/TaatiTeam/Token-Perturbation-Guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern
diffusion models to enhance both generation quality and alignment with input
conditions. However, CFG requires specific training procedures and is limited
to conditional generation. To address these limitations, we propose Token
Perturbation Guidance (TPG), a novel method that applies perturbation matrices
directly to intermediate token representations within the diffusion network.
TPG employs a norm-preserving shuffling operation to provide effective and
stable guidance signals that improve generation quality without architectural
changes. As a result, TPG is training-free and agnostic to input conditions,
making it readily applicable to both conditional and unconditional generation.
We further analyze the guidance term provided by TPG and show that its effect
on sampling more closely resembles CFG compared to existing training-free
guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1
show that TPG achieves nearly a 2times improvement in FID for unconditional
generation over the SDXL baseline, while closely matching CFG in prompt
alignment. These results establish TPG as a general, condition-agnostic
guidance method that brings CFG-like benefits to a broader class of diffusion
models. The code is available at
https://github.com/TaatiTeam/Token-Perturbation-Guidance