DDiT: Programación Dinámica de Parches para Transformadores de Difusión Eficientes

Resumen

Los Transformadores de Difusión (DiT) han logrado un rendimiento de vanguardia en generación de imágenes y video, pero su éxito conlleva un alto costo computacional. Esta ineficiencia se debe en gran medida al proceso de tokenización fijo, que utiliza parches de tamaño constante durante toda la fase de eliminación de ruido, independientemente de la complejidad del contenido. Proponemos una tokenización dinámica, una estrategia eficiente en tiempo de prueba que varía el tamaño de los parches según la complejidad del contenido y el paso temporal de eliminación de ruido. Nuestra idea clave es que los pasos temporales iniciales solo requieren parches más gruesos para modelar la estructura global, mientras que las iteraciones posteriores demandan parches más finos (de menor tamaño) para refinar los detalles locales. Durante la inferencia, nuestro método reasigna dinámicamente los tamaños de parche a lo largo de los pasos de eliminación de ruido para la generación de imágenes y video, reduciendo sustancialmente el costo mientras preserva la calidad perceptual de la generación. Experimentos exhaustivos demuestran la efectividad de nuestro enfoque: logra aceleraciones de hasta 3.52x y 3.2x en FLUX-1.Dev y Wan 2.1, respectivamente, sin comprometer la calidad de generación ni la adherencia al prompt.

English

Diffusion Transformers (DiTs) have achieved state-of-the-art performance in image and video generation, but their success comes at the cost of heavy computation. This inefficiency is largely due to the fixed tokenization process, which uses constant-sized patches throughout the entire denoising phase, regardless of the content's complexity. We propose dynamic tokenization, an efficient test-time strategy that varies patch sizes based on content complexity and the denoising timestep. Our key insight is that early timesteps only require coarser patches to model global structure, while later iterations demand finer (smaller-sized) patches to refine local details. During inference, our method dynamically reallocates patch sizes across denoising steps for image and video generation and substantially reduces cost while preserving perceptual generation quality. Extensive experiments demonstrate the effectiveness of our approach: it achieves up to 3.52times and 3.2times speedup on FLUX-1.Dev and Wan 2.1, respectively, without compromising the generation quality and prompt adherence.

DDiT: Programación Dinámica de Parches para Transformadores de Difusión Eficientes

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Resumen

Support