ChatPaper.aiChatPaper

DDT: Entkoppelter Diffusions-Transformer

DDT: Decoupled Diffusion Transformer

April 8, 2025
Autoren: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI

Zusammenfassung

Diffusion-Transformer haben eine bemerkenswerte Generierungsqualität demonstriert, obwohl sie längere Trainingsiterationen und zahlreiche Inferenzschritte erfordern. In jedem Denoising-Schritt kodieren Diffusion-Transformer die verrauschten Eingaben, um die niederfrequente semantische Komponente zu extrahieren, und dekodieren dann die höhere Frequenz mit identischen Modulen. Dieses Schema erzeugt ein inhärentes Optimierungsdilemma: Die Kodierung niederfrequenter Semantik erfordert die Reduzierung hochfrequenter Komponenten, was eine Spannung zwischen semantischer Kodierung und hochfrequenter Dekodierung erzeugt. Um diese Herausforderung zu lösen, schlagen wir einen neuen \color{ddtD}entkoppelten \color{ddtD}iffusion-\color{ddtT}ransformer~(\color{ddtDDT}) vor, mit einem entkoppelten Design eines dedizierten Konditionskodierers für die semantische Extraktion sowie eines spezialisierten Geschwindigkeitsdekodierers. Unsere Experimente zeigen, dass ein leistungsfähigerer Kodierer mit zunehmender Modellgröße Leistungsverbesserungen bringt. Für ImageNet 256×256 erreicht unser DDT-XL/2 eine neue Bestleistung von {1,31 FID}~(fast 4-mal schnellere Trainingskonvergenz im Vergleich zu früheren Diffusion-Transformern). Für ImageNet 512×512 erreicht unser DDT-XL/2 einen neuen Bestwert von 1,28 FID. Zusätzlich verbessert unsere entkoppelte Architektur als nützliches Nebenprodukt die Inferenzgeschwindigkeit, indem sie die gemeinsame Nutzung von Selbstkonditionen zwischen benachbarten Denoising-Schritten ermöglicht. Um Leistungseinbußen zu minimieren, schlagen wir einen neuartigen statistischen dynamischen Programmieransatz vor, um optimale Sharing-Strategien zu identifizieren.
English
Diffusion transformers have demonstrated remarkable generation quality, albeit requiring longer training iterations and numerous inference steps. In each denoising step, diffusion transformers encode the noisy inputs to extract the lower-frequency semantic component and then decode the higher frequency with identical modules. This scheme creates an inherent optimization dilemma: encoding low-frequency semantics necessitates reducing high-frequency components, creating tension between semantic encoding and high-frequency decoding. To resolve this challenge, we propose a new \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled design of a dedicated condition encoder for semantic extraction alongside a specialized velocity decoder. Our experiments reveal that a more substantial encoder yields performance improvements as model size increases. For ImageNet 256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of {1.31 FID}~(nearly 4times faster training convergence compared to previous diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our decoupled architecture enhances inference speed by enabling the sharing self-condition between adjacent denoising steps. To minimize performance degradation, we propose a novel statistical dynamic programming approach to identify optimal sharing strategies.

Summary

AI-Generated Summary

PDF733April 10, 2025