DDT: Transformador de Difusión Desacoplado
DDT: Decoupled Diffusion Transformer
April 8, 2025
Autores: Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang
cs.AI
Resumen
Los transformadores de difusión han demostrado una calidad de generación notable, aunque requieren iteraciones de entrenamiento más prolongadas y numerosos pasos de inferencia. En cada paso de eliminación de ruido, los transformadores de difusión codifican las entradas ruidosas para extraer el componente semántico de baja frecuencia y luego decodifican la frecuencia más alta con módulos idénticos. Este esquema crea un dilema de optimización inherente: la codificación de semántica de baja frecuencia requiere reducir los componentes de alta frecuencia, generando tensión entre la codificación semántica y la decodificación de alta frecuencia. Para resolver este desafío, proponemos un nuevo \color{ddtD}Transformador de Difusión Desacoplado~(\color{ddtDDT}), con un diseño desacoplado que incluye un codificador de condiciones dedicado para la extracción semántica junto con un decodificador de velocidad especializado. Nuestros experimentos revelan que un codificador más robusto produce mejoras en el rendimiento a medida que aumenta el tamaño del modelo. Para ImageNet 256×256, nuestro DDT-XL/2 alcanza un nuevo rendimiento de vanguardia de {1.31 FID}~(con una convergencia de entrenamiento casi 4 veces más rápida en comparación con los transformadores de difusión anteriores). Para ImageNet 512×512, nuestro DDT-XL/2 logra un nuevo FID de vanguardia de 1.28. Además, como un beneficio adicional, nuestra arquitectura desacoplada mejora la velocidad de inferencia al permitir el uso compartido de la autocondición entre pasos adyacentes de eliminación de ruido. Para minimizar la degradación del rendimiento, proponemos un novedoso enfoque de programación dinámica estadística para identificar estrategias óptimas de uso compartido.
English
Diffusion transformers have demonstrated remarkable generation quality,
albeit requiring longer training iterations and numerous inference steps. In
each denoising step, diffusion transformers encode the noisy inputs to extract
the lower-frequency semantic component and then decode the higher frequency
with identical modules. This scheme creates an inherent optimization dilemma:
encoding low-frequency semantics necessitates reducing high-frequency
components, creating tension between semantic encoding and high-frequency
decoding. To resolve this challenge, we propose a new
\color{ddtD}ecoupled \color{ddtD}iffusion
\color{ddtT}ransformer~(\color{ddtDDT}), with a decoupled
design of a dedicated condition encoder for semantic extraction alongside a
specialized velocity decoder. Our experiments reveal that a more substantial
encoder yields performance improvements as model size increases. For ImageNet
256times256, Our DDT-XL/2 achieves a new state-of-the-art performance of
{1.31 FID}~(nearly 4times faster training convergence compared to previous
diffusion transformers). For ImageNet 512times512, Our DDT-XL/2 achieves a
new state-of-the-art FID of 1.28. Additionally, as a beneficial by-product, our
decoupled architecture enhances inference speed by enabling the sharing
self-condition between adjacent denoising steps. To minimize performance
degradation, we propose a novel statistical dynamic programming approach to
identify optimal sharing strategies.Summary
AI-Generated Summary