D^2iT: Transformador de Difusão Dinâmica para Geração Precisa de Imagens

Resumo

Os modelos de difusão são amplamente reconhecidos por sua capacidade de gerar imagens de alta fidelidade. Apesar do excelente desempenho e escalabilidade da arquitetura Diffusion Transformer (DiT), ela aplica uma compressão fixa em diferentes regiões da imagem durante o processo de difusão, desconsiderando as densidades de informação naturalmente variáveis presentes nessas regiões. No entanto, uma compressão grande resulta em realismo local limitado, enquanto uma compressão pequena aumenta a complexidade computacional e compromete a consistência global, impactando, por fim, a qualidade das imagens geradas. Para abordar essas limitações, propomos comprimir dinamicamente diferentes regiões da imagem ao reconhecer a importância de cada região, e introduzimos uma nova estrutura de duas etapas projetada para aprimorar a eficácia e eficiência da geração de imagens: (1) O Dynamic VAE (DVAE) na primeira etapa emprega um codificador hierárquico para codificar diferentes regiões da imagem em taxas de redução de resolução distintas, adaptadas às suas densidades de informação específicas, fornecendo assim códigos latentes mais precisos e naturais para o processo de difusão. (2) O Dynamic Diffusion Transformer (D^2iT) na segunda etapa gera imagens ao prever ruídos multi-granulares, compostos por grãos grossos (menos código latente em regiões suaves) e grãos finos (mais códigos latentes em regiões detalhadas), por meio de uma combinação inovadora do Dynamic Grain Transformer e do Dynamic Content Transformer. A estratégia de combinar a previsão aproximada do ruído com a correção de regiões detalhadas alcança uma unificação entre consistência global e realismo local. Experimentos abrangentes em diversas tarefas de geração validam a eficácia da nossa abordagem. O código será disponibilizado em https://github.com/jiawn-creator/Dynamic-DiT.

English

Diffusion models are widely recognized for their ability to generate high-fidelity images. Despite the excellent performance and scalability of the Diffusion Transformer (DiT) architecture, it applies fixed compression across different image regions during the diffusion process, disregarding the naturally varying information densities present in these regions. However, large compression leads to limited local realism, while small compression increases computational complexity and compromises global consistency, ultimately impacting the quality of generated images. To address these limitations, we propose dynamically compressing different image regions by recognizing the importance of different regions, and introduce a novel two-stage framework designed to enhance the effectiveness and efficiency of image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical encoder to encode different image regions at different downsampling rates, tailored to their specific information densities, thereby providing more accurate and natural latent codes for the diffusion process. (2) Dynamic Diffusion Transformer (D^2iT) at second stage generates images by predicting multi-grained noise, consisting of coarse-grained (less latent code in smooth regions) and fine-grained (more latent codes in detailed regions), through an novel combination of the Dynamic Grain Transformer and the Dynamic Content Transformer. The strategy of combining rough prediction of noise with detailed regions correction achieves a unification of global consistency and local realism. Comprehensive experiments on various generation tasks validate the effectiveness of our approach. Code will be released at https://github.com/jiawn-creator/Dynamic-DiT.

D^2iT: Transformador de Difusão Dinâmica para Geração Precisa de Imagens

D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation

Resumo

Support