ChatPaper.aiChatPaper

DDT: Ontkoppelde Diffusie Transformer

DDT: Decoupled Diffusion Transformer

April 8, 2025
Auteurs: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI

Samenvatting

Diffusie-transformers hebben een opmerkelijke generatiekwaliteit aangetoond, hoewel ze langere trainingsiteraties en talrijke inferentiestappen vereisen. Bij elke denoiseringsstap coderen diffusie-transformers de ruisige invoer om de lagere-frequentie semantische component te extraheren en decoderen vervolgens de hogere frequentie met identieke modules. Dit schema creëert een inherent optimalisatiedilemma: het coderen van lage-frequentie semantiek vereist het verminderen van hoge-frequentie componenten, wat spanning creëert tussen semantische codering en hoge-frequentie decodering. Om deze uitdaging op te lossen, stellen we een nieuwe \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}) voor, met een ontkoppeld ontwerp van een toegewijde conditie-encoder voor semantische extractie naast een gespecialiseerde snelheidsdecoder. Onze experimenten tonen aan dat een robuustere encoder prestatieverbeteringen oplevert naarmate de modelgrootte toeneemt. Voor ImageNet 256x256 bereikt onze DDT-XL/2 een nieuwe state-of-the-art prestatie van {1.31 FID}~(bijna 4x snellere trainingsconvergentie vergeleken met eerdere diffusie-transformers). Voor ImageNet 512x512 bereikt onze DDT-XL/2 een nieuwe state-of-the-art FID van 1.28. Daarnaast verbetert onze ontkoppelde architectuur, als een gunstig bijproduct, de inferentiesnelheid door het delen van zelfcondities tussen aangrenzende denoiseringsstappen mogelijk te maken. Om prestatieverlies te minimaliseren, stellen we een nieuwe statistische dynamische programmeerbenadering voor om optimale delingsstrategieën te identificeren.
English
Diffusion transformers have demonstrated remarkable generation quality, albeit requiring longer training iterations and numerous inference steps. In each denoising step, diffusion transformers encode the noisy inputs to extract the lower-frequency semantic component and then decode the higher frequency with identical modules. This scheme creates an inherent optimization dilemma: encoding low-frequency semantics necessitates reducing high-frequency components, creating tension between semantic encoding and high-frequency decoding. To resolve this challenge, we propose a new \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled design of a dedicated condition encoder for semantic extraction alongside a specialized velocity decoder. Our experiments reveal that a more substantial encoder yields performance improvements as model size increases. For ImageNet 256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of {1.31 FID}~(nearly 4times faster training convergence compared to previous diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our decoupled architecture enhances inference speed by enabling the sharing self-condition between adjacent denoising steps. To minimize performance degradation, we propose a novel statistical dynamic programming approach to identify optimal sharing strategies.
PDF763April 10, 2025