D^2iT: Динамический диффузионный трансформатор для точного генеративного моделирования изображений
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation
April 13, 2025
Авторы: Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao
cs.AI
Аннотация
Диффузионные модели широко известны своей способностью генерировать изображения с высокой точностью. Несмотря на превосходную производительность и масштабируемость архитектуры Diffusion Transformer (DiT), она применяет фиксированное сжатие к различным областям изображения в процессе диффузии, игнорируя естественно изменяющуюся плотность информации в этих областях. Однако сильное сжатие приводит к ограниченной локальной реалистичности, а слабое сжатие увеличивает вычислительную сложность и нарушает глобальную согласованность, что в конечном итоге влияет на качество генерируемых изображений. Для устранения этих ограничений мы предлагаем динамически сжимать различные области изображения, учитывая их важность, и представляем новую двухэтапную структуру, предназначенную для повышения эффективности и качества генерации изображений: (1) Dynamic VAE (DVAE) на первом этапе использует иерархический кодировщик для кодирования различных областей изображения с разными уровнями уменьшения разрешения, адаптированными к их специфической плотности информации, что обеспечивает более точные и естественные латентные коды для процесса диффузии. (2) Dynamic Diffusion Transformer (D^2iT) на втором этапе генерирует изображения, предсказывая многоуровневый шум, состоящий из крупнозернистого (меньше латентных кодов в гладких областях) и мелкозернистого (больше латентных кодов в детализированных областях), с помощью новой комбинации Dynamic Grain Transformer и Dynamic Content Transformer. Стратегия сочетания грубого предсказания шума с коррекцией детализированных областей достигает объединения глобальной согласованности и локальной реалистичности. Комплексные эксперименты на различных задачах генерации подтверждают эффективность нашего подхода. Код будет доступен по адресу https://github.com/jiawn-creator/Dynamic-DiT.
English
Diffusion models are widely recognized for their ability to generate
high-fidelity images. Despite the excellent performance and scalability of the
Diffusion Transformer (DiT) architecture, it applies fixed compression across
different image regions during the diffusion process, disregarding the
naturally varying information densities present in these regions. However,
large compression leads to limited local realism, while small compression
increases computational complexity and compromises global consistency,
ultimately impacting the quality of generated images. To address these
limitations, we propose dynamically compressing different image regions by
recognizing the importance of different regions, and introduce a novel
two-stage framework designed to enhance the effectiveness and efficiency of
image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical
encoder to encode different image regions at different downsampling rates,
tailored to their specific information densities, thereby providing more
accurate and natural latent codes for the diffusion process. (2) Dynamic
Diffusion Transformer (D^2iT) at second stage generates images by predicting
multi-grained noise, consisting of coarse-grained (less latent code in smooth
regions) and fine-grained (more latent codes in detailed regions), through an
novel combination of the Dynamic Grain Transformer and the Dynamic Content
Transformer. The strategy of combining rough prediction of noise with detailed
regions correction achieves a unification of global consistency and local
realism. Comprehensive experiments on various generation tasks validate the
effectiveness of our approach. Code will be released at
https://github.com/jiawn-creator/Dynamic-DiT.Summary
AI-Generated Summary