DDT: Transformador de Difusión DesacopladoDDT: Decoupled Diffusion Transformer
Los transformadores de difusión han demostrado una calidad de generación notable, aunque requieren iteraciones de entrenamiento más prolongadas y numerosos pasos de inferencia. En cada paso de eliminación de ruido, los transformadores de difusión codifican las entradas ruidosas para extraer el componente semántico de baja frecuencia y luego decodifican la frecuencia más alta con módulos idénticos. Este esquema crea un dilema de optimización inherente: la codificación de semántica de baja frecuencia requiere reducir los componentes de alta frecuencia, generando tensión entre la codificación semántica y la decodificación de alta frecuencia. Para resolver este desafío, proponemos un nuevo \color{ddtD}Transformador de Difusión Desacoplado~(\color{ddtDDT}), con un diseño desacoplado que incluye un codificador de condiciones dedicado para la extracción semántica junto con un decodificador de velocidad especializado. Nuestros experimentos revelan que un codificador más robusto produce mejoras en el rendimiento a medida que aumenta el tamaño del modelo. Para ImageNet 256×256, nuestro DDT-XL/2 alcanza un nuevo rendimiento de vanguardia de {1.31 FID}~(con una convergencia de entrenamiento casi 4 veces más rápida en comparación con los transformadores de difusión anteriores). Para ImageNet 512×512, nuestro DDT-XL/2 logra un nuevo FID de vanguardia de 1.28. Además, como un beneficio adicional, nuestra arquitectura desacoplada mejora la velocidad de inferencia al permitir el uso compartido de la autocondición entre pasos adyacentes de eliminación de ruido. Para minimizar la degradación del rendimiento, proponemos un novedoso enfoque de programación dinámica estadística para identificar estrategias óptimas de uso compartido.