DDiT: Programmazione Dinamica delle Patch per Trasformatori Diffusivi Efficienti
DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers
February 19, 2026
Autori: Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde
cs.AI
Abstract
I Diffusion Transformer (DiT) hanno ottenento prestazioni all'avanguardia nella generazione di immagini e video, ma il loro successo avviene a scapito di un elevato costo computazionale. Questa inefficienza è largamente dovuta al processo di tokenizzazione fisso, che utilizza patch di dimensioni costanti durante l'intera fase di denoising, indipendentemente dalla complessità del contenuto. Proponiamo la tokenizzazione dinamica, una strategia efficiente al tempo di test che varia le dimensioni delle patch in base alla complessità del contenuto e al timestep di denoising. La nostra intuizione chiave è che i primi timestep richiedono solo patch più grossolane per modellare la struttura globale, mentre le iterazioni successive richiedono patch più fini (di dimensioni ridotte) per rifinire i dettagli locali. Durante l'inferenza, il nostro metodo riallocata dinamicamente le dimensioni delle patch attraverso i passi di denoising per la generazione di immagini e video, riducendo sostanzialmente i costi preservando al contempo la qualità percettiva della generazione. Esperimenti estensivi dimostrano l'efficacia del nostro approccio: esso raggiunge un accelerazione fino a 3,52 volte e 3,2 volte rispettivamente su FLUX-1.Dev e Wan 2.1, senza compromettere la qualità della generazione e l'aderenza al prompt.
English
Diffusion Transformers (DiTs) have achieved state-of-the-art performance in image and video generation, but their success comes at the cost of heavy computation. This inefficiency is largely due to the fixed tokenization process, which uses constant-sized patches throughout the entire denoising phase, regardless of the content's complexity. We propose dynamic tokenization, an efficient test-time strategy that varies patch sizes based on content complexity and the denoising timestep. Our key insight is that early timesteps only require coarser patches to model global structure, while later iterations demand finer (smaller-sized) patches to refine local details. During inference, our method dynamically reallocates patch sizes across denoising steps for image and video generation and substantially reduces cost while preserving perceptual generation quality. Extensive experiments demonstrate the effectiveness of our approach: it achieves up to 3.52times and 3.2times speedup on FLUX-1.Dev and Wan 2.1, respectively, without compromising the generation quality and prompt adherence.