Token-Störungsführung für Diffusionsmodelle
Token Perturbation Guidance for Diffusion Models
June 10, 2025
Autoren: Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati
cs.AI
Zusammenfassung
Classifier-free Guidance (CFG) hat sich zu einem wesentlichen Bestandteil moderner Diffusionsmodelle entwickelt, um sowohl die Generierungsqualität als auch die Ausrichtung an Eingabebedingungen zu verbessern. CFG erfordert jedoch spezifische Trainingsverfahren und ist auf die bedingte Generierung beschränkt. Um diese Einschränkungen zu überwinden, schlagen wir Token Perturbation Guidance (TPG) vor, eine neuartige Methode, die Perturbationsmatrizen direkt auf intermediäre Token-Repräsentationen innerhalb des Diffusionsnetzwerks anwendet. TPG nutzt eine normerhaltende Shuffle-Operation, um effektive und stabile Führungssignale bereitzustellen, die die Generierungsqualität ohne architektonische Änderungen verbessern. Dadurch ist TPG trainingsfrei und unabhängig von Eingabebedingungen, was es sowohl für die bedingte als auch für die unbedingte Generierung anwendbar macht. Wir analysieren weiterhin den von TPG bereitgestellten Führungsterm und zeigen, dass seine Wirkung auf das Sampling im Vergleich zu bestehenden trainingsfreien Führungstechniken CFG stärker ähnelt. Umfangreiche Experimente mit SDXL und Stable Diffusion 2.1 zeigen, dass TPG eine nahezu zweifache Verbesserung des FID-Werts für die unbedingte Generierung gegenüber der SDXL-Baseline erreicht, während es CFG in der Prompt-Ausrichtung nahezu entspricht. Diese Ergebnisse etablieren TPG als eine allgemeine, bedingungsunabhängige Führungsmethode, die CFG-ähnliche Vorteile für eine breitere Klasse von Diffusionsmodellen bietet. Der Code ist verfügbar unter https://github.com/TaatiTeam/Token-Perturbation-Guidance.
English
Classifier-free guidance (CFG) has become an essential component of modern
diffusion models to enhance both generation quality and alignment with input
conditions. However, CFG requires specific training procedures and is limited
to conditional generation. To address these limitations, we propose Token
Perturbation Guidance (TPG), a novel method that applies perturbation matrices
directly to intermediate token representations within the diffusion network.
TPG employs a norm-preserving shuffling operation to provide effective and
stable guidance signals that improve generation quality without architectural
changes. As a result, TPG is training-free and agnostic to input conditions,
making it readily applicable to both conditional and unconditional generation.
We further analyze the guidance term provided by TPG and show that its effect
on sampling more closely resembles CFG compared to existing training-free
guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1
show that TPG achieves nearly a 2times improvement in FID for unconditional
generation over the SDXL baseline, while closely matching CFG in prompt
alignment. These results establish TPG as a general, condition-agnostic
guidance method that brings CFG-like benefits to a broader class of diffusion
models. The code is available at
https://github.com/TaatiTeam/Token-Perturbation-Guidance