D^2iT: Transformador de Difusión Dinámica para la Generación Precisa de Imágenes
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation
April 13, 2025
Autores: Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao
cs.AI
Resumen
Los modelos de difusión son ampliamente reconocidos por su capacidad para generar imágenes de alta fidelidad. A pesar del excelente rendimiento y escalabilidad de la arquitectura Diffusion Transformer (DiT), esta aplica una compresión fija en diferentes regiones de la imagen durante el proceso de difusión, ignorando las densidades de información naturalmente variables presentes en estas regiones. Sin embargo, una compresión grande limita el realismo local, mientras que una compresión pequeña aumenta la complejidad computacional y compromete la consistencia global, afectando finalmente la calidad de las imágenes generadas. Para abordar estas limitaciones, proponemos comprimir dinámicamente diferentes regiones de la imagen al reconocer la importancia de cada región, e introducimos un marco novedoso de dos etapas diseñado para mejorar la efectividad y eficiencia de la generación de imágenes: (1) El Dynamic VAE (DVAE) en la primera etapa emplea un codificador jerárquico para codificar diferentes regiones de la imagen a diferentes tasas de submuestreo, adaptadas a sus densidades de información específicas, proporcionando así códigos latentes más precisos y naturales para el proceso de difusión. (2) El Dynamic Diffusion Transformer (D^2iT) en la segunda etapa genera imágenes prediciendo ruido de múltiples granularidades, que consiste en granularidad gruesa (menos códigos latentes en regiones suaves) y granularidad fina (más códigos latentes en regiones detalladas), a través de una combinación novedosa del Dynamic Grain Transformer y el Dynamic Content Transformer. La estrategia de combinar la predicción aproximada del ruido con la corrección de regiones detalladas logra una unificación de la consistencia global y el realismo local. Experimentos exhaustivos en diversas tareas de generación validan la efectividad de nuestro enfoque. El código será publicado en https://github.com/jiawn-creator/Dynamic-DiT.
English
Diffusion models are widely recognized for their ability to generate
high-fidelity images. Despite the excellent performance and scalability of the
Diffusion Transformer (DiT) architecture, it applies fixed compression across
different image regions during the diffusion process, disregarding the
naturally varying information densities present in these regions. However,
large compression leads to limited local realism, while small compression
increases computational complexity and compromises global consistency,
ultimately impacting the quality of generated images. To address these
limitations, we propose dynamically compressing different image regions by
recognizing the importance of different regions, and introduce a novel
two-stage framework designed to enhance the effectiveness and efficiency of
image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical
encoder to encode different image regions at different downsampling rates,
tailored to their specific information densities, thereby providing more
accurate and natural latent codes for the diffusion process. (2) Dynamic
Diffusion Transformer (D^2iT) at second stage generates images by predicting
multi-grained noise, consisting of coarse-grained (less latent code in smooth
regions) and fine-grained (more latent codes in detailed regions), through an
novel combination of the Dynamic Grain Transformer and the Dynamic Content
Transformer. The strategy of combining rough prediction of noise with detailed
regions correction achieves a unification of global consistency and local
realism. Comprehensive experiments on various generation tasks validate the
effectiveness of our approach. Code will be released at
https://github.com/jiawn-creator/Dynamic-DiT.Summary
AI-Generated Summary