DDT: Entkoppelter Diffusions-TransformerDDT: Decoupled Diffusion Transformer
Diffusion-Transformer haben eine bemerkenswerte Generierungsqualität demonstriert, obwohl sie längere Trainingsiterationen und zahlreiche Inferenzschritte erfordern. In jedem Denoising-Schritt kodieren Diffusion-Transformer die verrauschten Eingaben, um die niederfrequente semantische Komponente zu extrahieren, und dekodieren dann die höhere Frequenz mit identischen Modulen. Dieses Schema erzeugt ein inhärentes Optimierungsdilemma: Die Kodierung niederfrequenter Semantik erfordert die Reduzierung hochfrequenter Komponenten, was eine Spannung zwischen semantischer Kodierung und hochfrequenter Dekodierung erzeugt. Um diese Herausforderung zu lösen, schlagen wir einen neuen \color{ddtD}entkoppelten \color{ddtD}iffusion-\color{ddtT}ransformer~(\color{ddtDDT}) vor, mit einem entkoppelten Design eines dedizierten Konditionskodierers für die semantische Extraktion sowie eines spezialisierten Geschwindigkeitsdekodierers. Unsere Experimente zeigen, dass ein leistungsfähigerer Kodierer mit zunehmender Modellgröße Leistungsverbesserungen bringt. Für ImageNet 256×256 erreicht unser DDT-XL/2 eine neue Bestleistung von {1,31 FID}~(fast 4-mal schnellere Trainingskonvergenz im Vergleich zu früheren Diffusion-Transformern). Für ImageNet 512×512 erreicht unser DDT-XL/2 einen neuen Bestwert von 1,28 FID. Zusätzlich verbessert unsere entkoppelte Architektur als nützliches Nebenprodukt die Inferenzgeschwindigkeit, indem sie die gemeinsame Nutzung von Selbstkonditionen zwischen benachbarten Denoising-Schritten ermöglicht. Um Leistungseinbußen zu minimieren, schlagen wir einen neuartigen statistischen dynamischen Programmieransatz vor, um optimale Sharing-Strategien zu identifizieren.