D^2iT : Transformateur à Diffusion Dynamique pour une Génération d'Images Précise
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation
April 13, 2025
Auteurs: Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao
cs.AI
Résumé
Les modèles de diffusion sont largement reconnus pour leur capacité à générer des images de haute fidélité. Malgré les excellentes performances et l'évolutivité de l'architecture Diffusion Transformer (DiT), celle-ci applique une compression fixe à travers différentes régions de l'image pendant le processus de diffusion, ignorant les densités d'information naturellement variables présentes dans ces régions. Cependant, une compression importante limite le réalisme local, tandis qu'une compression réduite augmente la complexité computationnelle et compromet la cohérence globale, affectant finalement la qualité des images générées. Pour surmonter ces limitations, nous proposons de compresser dynamiquement différentes régions de l'image en reconnaissant l'importance de ces régions, et introduisons un nouveau cadre en deux étapes conçu pour améliorer l'efficacité et l'efficience de la génération d'images : (1) Le Dynamic VAE (DVAE) à la première étape utilise un encodeur hiérarchique pour encoder différentes régions de l'image à différents taux de sous-échantillonnage, adaptés à leurs densités d'information spécifiques, fournissant ainsi des codes latents plus précis et naturels pour le processus de diffusion. (2) Le Dynamic Diffusion Transformer (D^2iT) à la deuxième étape génère des images en prédisant un bruit multi-granulaire, composé de bruit à grain grossier (moins de codes latents dans les régions lisses) et à grain fin (plus de codes latents dans les régions détaillées), grâce à une combinaison novatrice du Dynamic Grain Transformer et du Dynamic Content Transformer. La stratégie consistant à combiner une prédiction approximative du bruit avec une correction des régions détaillées permet d'atteindre une unification de la cohérence globale et du réalisme local. Des expériences approfondies sur diverses tâches de génération valident l'efficacité de notre approche. Le code sera disponible à l'adresse https://github.com/jiawn-creator/Dynamic-DiT.
English
Diffusion models are widely recognized for their ability to generate
high-fidelity images. Despite the excellent performance and scalability of the
Diffusion Transformer (DiT) architecture, it applies fixed compression across
different image regions during the diffusion process, disregarding the
naturally varying information densities present in these regions. However,
large compression leads to limited local realism, while small compression
increases computational complexity and compromises global consistency,
ultimately impacting the quality of generated images. To address these
limitations, we propose dynamically compressing different image regions by
recognizing the importance of different regions, and introduce a novel
two-stage framework designed to enhance the effectiveness and efficiency of
image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical
encoder to encode different image regions at different downsampling rates,
tailored to their specific information densities, thereby providing more
accurate and natural latent codes for the diffusion process. (2) Dynamic
Diffusion Transformer (D^2iT) at second stage generates images by predicting
multi-grained noise, consisting of coarse-grained (less latent code in smooth
regions) and fine-grained (more latent codes in detailed regions), through an
novel combination of the Dynamic Grain Transformer and the Dynamic Content
Transformer. The strategy of combining rough prediction of noise with detailed
regions correction achieves a unification of global consistency and local
realism. Comprehensive experiments on various generation tasks validate the
effectiveness of our approach. Code will be released at
https://github.com/jiawn-creator/Dynamic-DiT.Summary
AI-Generated Summary