DDT: Entkoppelter Diffusions-Transformer
DDT: Decoupled Diffusion Transformer
April 8, 2025
Autoren: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI
Zusammenfassung
Diffusion-Transformer haben eine bemerkenswerte Generierungsqualität demonstriert, obwohl sie längere Trainingsiterationen und zahlreiche Inferenzschritte erfordern. In jedem Denoising-Schritt kodieren Diffusion-Transformer die verrauschten Eingaben, um die niederfrequente semantische Komponente zu extrahieren, und dekodieren dann die höhere Frequenz mit identischen Modulen. Dieses Schema erzeugt ein inhärentes Optimierungsdilemma: Die Kodierung niederfrequenter Semantik erfordert die Reduzierung hochfrequenter Komponenten, was eine Spannung zwischen semantischer Kodierung und hochfrequenter Dekodierung erzeugt. Um diese Herausforderung zu lösen, schlagen wir einen neuen \color{ddtD}entkoppelten \color{ddtD}iffusion-\color{ddtT}ransformer~(\color{ddtDDT}) vor, mit einem entkoppelten Design eines dedizierten Konditionskodierers für die semantische Extraktion sowie eines spezialisierten Geschwindigkeitsdekodierers. Unsere Experimente zeigen, dass ein leistungsfähigerer Kodierer mit zunehmender Modellgröße Leistungsverbesserungen bringt. Für ImageNet 256×256 erreicht unser DDT-XL/2 eine neue Bestleistung von {1,31 FID}~(fast 4-mal schnellere Trainingskonvergenz im Vergleich zu früheren Diffusion-Transformern). Für ImageNet 512×512 erreicht unser DDT-XL/2 einen neuen Bestwert von 1,28 FID. Zusätzlich verbessert unsere entkoppelte Architektur als nützliches Nebenprodukt die Inferenzgeschwindigkeit, indem sie die gemeinsame Nutzung von Selbstkonditionen zwischen benachbarten Denoising-Schritten ermöglicht. Um Leistungseinbußen zu minimieren, schlagen wir einen neuartigen statistischen dynamischen Programmieransatz vor, um optimale Sharing-Strategien zu identifizieren.
English
Diffusion transformers have demonstrated remarkable generation quality,
albeit requiring longer training iterations and numerous inference steps. In
each denoising step, diffusion transformers encode the noisy inputs to extract
the lower-frequency semantic component and then decode the higher frequency
with identical modules. This scheme creates an inherent optimization dilemma:
encoding low-frequency semantics necessitates reducing high-frequency
components, creating tension between semantic encoding and high-frequency
decoding. To resolve this challenge, we propose a new
\color{ddtD}ecoupled \color{ddtD}iffusion
\color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled
design of a dedicated condition encoder for semantic extraction alongside a
specialized velocity decoder. Our experiments reveal that a more substantial
encoder yields performance improvements as model size increases. For ImageNet
256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of
{1.31 FID}~(nearly 4times faster training convergence compared to previous
diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a
new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our
decoupled architecture enhances inference speed by enabling the sharing
self-condition between adjacent denoising steps. To minimize performance
degradation, we propose a novel statistical dynamic programming approach to
identify optimal sharing strategies.Summary
AI-Generated Summary