DDT : Transformateur à Diffusion DécoupléeDDT: Decoupled Diffusion Transformer
Les transformateurs de diffusion ont démontré une qualité de génération remarquable, bien qu'ils nécessitent des itérations d'entraînement plus longues et de nombreuses étapes d'inférence. À chaque étape de débruitage, les transformateurs de diffusion encodent les entrées bruitées pour extraire la composante sémantique de basse fréquence, puis décodent la composante de haute fréquence avec des modules identiques. Ce schéma crée un dilemme d'optimisation inhérent : l'encodage de la sémantique de basse fréquence nécessite de réduire les composantes de haute fréquence, créant ainsi une tension entre l'encodage sémantique et le décodage de haute fréquence. Pour résoudre ce défi, nous proposons un nouveau \color{ddtD}Transformateur de Diffusion Découplé \color{ddtD}(\color{ddtDDT}), avec une conception découplée comprenant un encodeur de condition dédié pour l'extraction sémantique ainsi qu'un décodeur de vitesse spécialisé. Nos expériences révèlent qu'un encodeur plus substantiel améliore les performances à mesure que la taille du modèle augmente. Pour ImageNet 256x256, notre DDT-XL/2 atteint une nouvelle performance de pointe avec un FID de 1,31 (une convergence d'entraînement près de 4 fois plus rapide par rapport aux transformateurs de diffusion précédents). Pour ImageNet 512x512, notre DDT-XL/2 atteint un nouveau FID de pointe de 1,28. De plus, comme un sous-produit bénéfique, notre architecture découplée améliore la vitesse d'inférence en permettant le partage de l'auto-condition entre les étapes de débruitage adjacentes. Pour minimiser la dégradation des performances, nous proposons une nouvelle approche de programmation dynamique statistique pour identifier les stratégies de partage optimales.