ChatPaper.aiChatPaper

DDiT: Dynamische Patch-Zuordnung für effiziente Diffusionstransformatoren

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

February 19, 2026
papers.authors: Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde
cs.AI

papers.abstract

Diffusion Transformers (DiTs) haben state-of-the-art Leistung in der Bild- und Videogenerierung erreicht, doch ihr Erfolg geht mit hohem Rechenaufwand einher. Diese Ineffizienz ist größtenteils auf den festen Tokenisierungsprozess zurückzuführen, der während der gesamten Rauschunterdrückungsphase konstante Patch-Größen verwendet, unabhängig von der Komplexität des Inhalts. Wir schlagen eine dynamische Tokenisierung vor, eine effiziente Strategie zur Laufzeit, die die Patch-Größen basierend auf der Inhaltskomplexität und dem Rauschunterdrückungs-Zeitschritt variiert. Unsere zentrale Erkenntnis ist, dass frühe Zeitschritte nur gröbere Patches benötigen, um die globale Struktur zu modellieren, während spätere Iterationen feinere (kleinere) Patches erfordern, um lokale Details auszuarbeiten. Während der Inferenz verteilt unsere Methode die Patch-Größen dynamisch über die Rauschunterdrückungsschritte für die Bild- und Videogenerierung neu und reduziert die Kosten erheblich, während die wahrgenommene Generierungsqualität erhalten bleibt. Umfangreiche Experimente belegen die Wirksamkeit unseres Ansatzes: Er erreicht eine Beschleunigung um bis zum 3,52-fachen bzw. 3,2-fachen auf FLUX-1.Dev und Wan 2.1, ohne die Generierungsqualität und die Prompt-Treue zu beeinträchtigen.
English
Diffusion Transformers (DiTs) have achieved state-of-the-art performance in image and video generation, but their success comes at the cost of heavy computation. This inefficiency is largely due to the fixed tokenization process, which uses constant-sized patches throughout the entire denoising phase, regardless of the content's complexity. We propose dynamic tokenization, an efficient test-time strategy that varies patch sizes based on content complexity and the denoising timestep. Our key insight is that early timesteps only require coarser patches to model global structure, while later iterations demand finer (smaller-sized) patches to refine local details. During inference, our method dynamically reallocates patch sizes across denoising steps for image and video generation and substantially reduces cost while preserving perceptual generation quality. Extensive experiments demonstrate the effectiveness of our approach: it achieves up to 3.52times and 3.2times speedup on FLUX-1.Dev and Wan 2.1, respectively, without compromising the generation quality and prompt adherence.
PDF92February 21, 2026