DDiT : Planification dynamique des patchs pour des transformeurs de diffusion efficaces

papers.abstract

Les Transformers de Diffusion (DiTs) ont atteint des performances de pointe en génération d'images et de vidéos, mais leur succès se fait au prix d'une lourde charge computationnelle. Cette inefficacité est largement due au processus de tokenisation fixe, qui utilise des patchs de taille constante tout au long de la phase de débruitage, indépendamment de la complexité du contenu. Nous proposons une tokenisation dynamique, une stratégie efficace au moment du test qui fait varier la taille des patchs en fonction de la complexité du contenu et du pas de temps de débruitage. Notre idée clé est que les premiers pas de temps ne nécessitent que des patchs plus grossiers pour modéliser la structure globale, tandis que les itérations ultérieures demandent des patchs plus fins (de plus petite taille) pour affiner les détails locaux. Lors de l'inférence, notre méthode réalloue dynamiquement la taille des patchs à travers les étapes de débruitage pour la génération d'images et de vidéos, et réduit substantiellement le coût tout en préservant la qualité perceptuelle de la génération. Des expériences approfondies démontrent l'efficacité de notre approche : elle permet d'atteindre une accélération allant jusqu'à 3,52 fois et 3,2 fois sur FLUX-1.Dev et Wan 2.1, respectivement, sans compromettre la qualité de génération ni la fidélité aux instructions.

English

Diffusion Transformers (DiTs) have achieved state-of-the-art performance in image and video generation, but their success comes at the cost of heavy computation. This inefficiency is largely due to the fixed tokenization process, which uses constant-sized patches throughout the entire denoising phase, regardless of the content's complexity. We propose dynamic tokenization, an efficient test-time strategy that varies patch sizes based on content complexity and the denoising timestep. Our key insight is that early timesteps only require coarser patches to model global structure, while later iterations demand finer (smaller-sized) patches to refine local details. During inference, our method dynamically reallocates patch sizes across denoising steps for image and video generation and substantially reduces cost while preserving perceptual generation quality. Extensive experiments demonstrate the effectiveness of our approach: it achieves up to 3.52times and 3.2times speedup on FLUX-1.Dev and Wan 2.1, respectively, without compromising the generation quality and prompt adherence.

DDiT : Planification dynamique des patchs pour des transformeurs de diffusion efficaces

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

papers.abstract

Support