D^2iT: Transformador de Difusão Dinâmica para Geração Precisa de Imagens
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation
April 13, 2025
Autores: Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao
cs.AI
Resumo
Os modelos de difusão são amplamente reconhecidos por sua capacidade de gerar imagens de alta fidelidade. Apesar do excelente desempenho e escalabilidade da arquitetura Diffusion Transformer (DiT), ela aplica uma compressão fixa em diferentes regiões da imagem durante o processo de difusão, desconsiderando as densidades de informação naturalmente variáveis presentes nessas regiões. No entanto, uma compressão grande resulta em realismo local limitado, enquanto uma compressão pequena aumenta a complexidade computacional e compromete a consistência global, impactando, por fim, a qualidade das imagens geradas. Para abordar essas limitações, propomos comprimir dinamicamente diferentes regiões da imagem ao reconhecer a importância de cada região, e introduzimos uma nova estrutura de duas etapas projetada para aprimorar a eficácia e eficiência da geração de imagens: (1) O Dynamic VAE (DVAE) na primeira etapa emprega um codificador hierárquico para codificar diferentes regiões da imagem em taxas de redução de resolução distintas, adaptadas às suas densidades de informação específicas, fornecendo assim códigos latentes mais precisos e naturais para o processo de difusão. (2) O Dynamic Diffusion Transformer (D^2iT) na segunda etapa gera imagens ao prever ruídos multi-granulares, compostos por grãos grossos (menos código latente em regiões suaves) e grãos finos (mais códigos latentes em regiões detalhadas), por meio de uma combinação inovadora do Dynamic Grain Transformer e do Dynamic Content Transformer. A estratégia de combinar a previsão aproximada do ruído com a correção de regiões detalhadas alcança uma unificação entre consistência global e realismo local. Experimentos abrangentes em diversas tarefas de geração validam a eficácia da nossa abordagem. O código será disponibilizado em https://github.com/jiawn-creator/Dynamic-DiT.
English
Diffusion models are widely recognized for their ability to generate
high-fidelity images. Despite the excellent performance and scalability of the
Diffusion Transformer (DiT) architecture, it applies fixed compression across
different image regions during the diffusion process, disregarding the
naturally varying information densities present in these regions. However,
large compression leads to limited local realism, while small compression
increases computational complexity and compromises global consistency,
ultimately impacting the quality of generated images. To address these
limitations, we propose dynamically compressing different image regions by
recognizing the importance of different regions, and introduce a novel
two-stage framework designed to enhance the effectiveness and efficiency of
image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical
encoder to encode different image regions at different downsampling rates,
tailored to their specific information densities, thereby providing more
accurate and natural latent codes for the diffusion process. (2) Dynamic
Diffusion Transformer (D^2iT) at second stage generates images by predicting
multi-grained noise, consisting of coarse-grained (less latent code in smooth
regions) and fine-grained (more latent codes in detailed regions), through an
novel combination of the Dynamic Grain Transformer and the Dynamic Content
Transformer. The strategy of combining rough prediction of noise with detailed
regions correction achieves a unification of global consistency and local
realism. Comprehensive experiments on various generation tasks validate the
effectiveness of our approach. Code will be released at
https://github.com/jiawn-creator/Dynamic-DiT.