DDT: Ontkoppelde Diffusie Transformer
DDT: Decoupled Diffusion Transformer
April 8, 2025
Auteurs: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI
Samenvatting
Diffusie-transformers hebben een opmerkelijke generatiekwaliteit aangetoond, hoewel ze langere trainingsiteraties en talrijke inferentiestappen vereisen. Bij elke denoiseringsstap coderen diffusie-transformers de ruisige invoer om de lagere-frequentie semantische component te extraheren en decoderen vervolgens de hogere frequentie met identieke modules. Dit schema creëert een inherent optimalisatiedilemma: het coderen van lage-frequentie semantiek vereist het verminderen van hoge-frequentie componenten, wat spanning creëert tussen semantische codering en hoge-frequentie decodering. Om deze uitdaging op te lossen, stellen we een nieuwe \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}) voor, met een ontkoppeld ontwerp van een toegewijde conditie-encoder voor semantische extractie naast een gespecialiseerde snelheidsdecoder. Onze experimenten tonen aan dat een robuustere encoder prestatieverbeteringen oplevert naarmate de modelgrootte toeneemt. Voor ImageNet 256x256 bereikt onze DDT-XL/2 een nieuwe state-of-the-art prestatie van {1.31 FID}~(bijna 4x snellere trainingsconvergentie vergeleken met eerdere diffusie-transformers). Voor ImageNet 512x512 bereikt onze DDT-XL/2 een nieuwe state-of-the-art FID van 1.28. Daarnaast verbetert onze ontkoppelde architectuur, als een gunstig bijproduct, de inferentiesnelheid door het delen van zelfcondities tussen aangrenzende denoiseringsstappen mogelijk te maken. Om prestatieverlies te minimaliseren, stellen we een nieuwe statistische dynamische programmeerbenadering voor om optimale delingsstrategieën te identificeren.
English
Diffusion transformers have demonstrated remarkable generation quality,
albeit requiring longer training iterations and numerous inference steps. In
each denoising step, diffusion transformers encode the noisy inputs to extract
the lower-frequency semantic component and then decode the higher frequency
with identical modules. This scheme creates an inherent optimization dilemma:
encoding low-frequency semantics necessitates reducing high-frequency
components, creating tension between semantic encoding and high-frequency
decoding. To resolve this challenge, we propose a new
\color{ddtD}ecoupled \color{ddtD}iffusion
\color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled
design of a dedicated condition encoder for semantic extraction alongside a
specialized velocity decoder. Our experiments reveal that a more substantial
encoder yields performance improvements as model size increases. For ImageNet
256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of
{1.31 FID}~(nearly 4times faster training convergence compared to previous
diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a
new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our
decoupled architecture enhances inference speed by enabling the sharing
self-condition between adjacent denoising steps. To minimize performance
degradation, we propose a novel statistical dynamic programming approach to
identify optimal sharing strategies.