DDiT: Dynamische Patch-planning voor efficiënte Diffusion Transformers
DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers
February 19, 2026
Auteurs: Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde
cs.AI
Samenvatting
Diffusion Transformers (DiTs) hebben state-of-the-art prestaties bereikt in beeld- en videogeneratie, maar hun succes gaat gepaard met een zware rekenkost. Deze inefficiëntie is grotendeels te wijten aan het vaste tokenisatieproces, dat gedurende de gehele denoiseringsfase patches van constante grootte gebruikt, ongeacht de complexiteit van de inhoud. Wij stellen dynamische tokenisatie voor, een efficiënte strategie tijdens de testfase die de patchgrootte varieert op basis van de complexiteit van de inhoud en de denoiseringstijdstap. Ons belangrijkste inzicht is dat vroege tijdstappen alleen grovere patches nodig hebben om de globale structuur te modelleren, terwijl latere iteraties fijnere (kleinere) patches vereisen om lokale details te verfijnen. Tijdens de inferentie herverdeelt onze methode dynamisch de patchgroottes over de denoiseringsstappen voor beeld- en videogeneratie en vermindert zij de kosten aanzienlijk met behoud van de perceptuele generatiekwaliteit. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan: zij bereikt een versnelling tot respectievelijk 3,52x en 3,2x op FLUX-1.Dev en Wan 2.1, zonder in te boeten aan generatiekwaliteit en promptnaleving.
English
Diffusion Transformers (DiTs) have achieved state-of-the-art performance in image and video generation, but their success comes at the cost of heavy computation. This inefficiency is largely due to the fixed tokenization process, which uses constant-sized patches throughout the entire denoising phase, regardless of the content's complexity. We propose dynamic tokenization, an efficient test-time strategy that varies patch sizes based on content complexity and the denoising timestep. Our key insight is that early timesteps only require coarser patches to model global structure, while later iterations demand finer (smaller-sized) patches to refine local details. During inference, our method dynamically reallocates patch sizes across denoising steps for image and video generation and substantially reduces cost while preserving perceptual generation quality. Extensive experiments demonstrate the effectiveness of our approach: it achieves up to 3.52times and 3.2times speedup on FLUX-1.Dev and Wan 2.1, respectively, without compromising the generation quality and prompt adherence.