Token-Störungsführung für Diffusionsmodelle

papers.abstract

Classifier-free Guidance (CFG) hat sich zu einem wesentlichen Bestandteil moderner Diffusionsmodelle entwickelt, um sowohl die Generierungsqualität als auch die Ausrichtung an Eingabebedingungen zu verbessern. CFG erfordert jedoch spezifische Trainingsverfahren und ist auf die bedingte Generierung beschränkt. Um diese Einschränkungen zu überwinden, schlagen wir Token Perturbation Guidance (TPG) vor, eine neuartige Methode, die Perturbationsmatrizen direkt auf intermediäre Token-Repräsentationen innerhalb des Diffusionsnetzwerks anwendet. TPG nutzt eine normerhaltende Shuffle-Operation, um effektive und stabile Führungssignale bereitzustellen, die die Generierungsqualität ohne architektonische Änderungen verbessern. Dadurch ist TPG trainingsfrei und unabhängig von Eingabebedingungen, was es sowohl für die bedingte als auch für die unbedingte Generierung anwendbar macht. Wir analysieren weiterhin den von TPG bereitgestellten Führungsterm und zeigen, dass seine Wirkung auf das Sampling im Vergleich zu bestehenden trainingsfreien Führungstechniken CFG stärker ähnelt. Umfangreiche Experimente mit SDXL und Stable Diffusion 2.1 zeigen, dass TPG eine nahezu zweifache Verbesserung des FID-Werts für die unbedingte Generierung gegenüber der SDXL-Baseline erreicht, während es CFG in der Prompt-Ausrichtung nahezu entspricht. Diese Ergebnisse etablieren TPG als eine allgemeine, bedingungsunabhängige Führungsmethode, die CFG-ähnliche Vorteile für eine breitere Klasse von Diffusionsmodellen bietet. Der Code ist verfügbar unter https://github.com/TaatiTeam/Token-Perturbation-Guidance.

English

Classifier-free guidance (CFG) has become an essential component of modern diffusion models to enhance both generation quality and alignment with input conditions. However, CFG requires specific training procedures and is limited to conditional generation. To address these limitations, we propose Token Perturbation Guidance (TPG), a novel method that applies perturbation matrices directly to intermediate token representations within the diffusion network. TPG employs a norm-preserving shuffling operation to provide effective and stable guidance signals that improve generation quality without architectural changes. As a result, TPG is training-free and agnostic to input conditions, making it readily applicable to both conditional and unconditional generation. We further analyze the guidance term provided by TPG and show that its effect on sampling more closely resembles CFG compared to existing training-free guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1 show that TPG achieves nearly a 2times improvement in FID for unconditional generation over the SDXL baseline, while closely matching CFG in prompt alignment. These results establish TPG as a general, condition-agnostic guidance method that brings CFG-like benefits to a broader class of diffusion models. The code is available at https://github.com/TaatiTeam/Token-Perturbation-Guidance

Token-Störungsführung für Diffusionsmodelle

Token Perturbation Guidance for Diffusion Models

papers.abstract

Support