D^2iT: 正確な画像生成のための動的拡散トランスフォーマー
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation
April 13, 2025
著者: Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao
cs.AI
要旨
拡散モデルは、高精細な画像生成能力で広く認知されています。Diffusion Transformer(DiT)アーキテクチャは優れた性能とスケーラビリティを備えていますが、拡散プロセス中に異なる画像領域に対して固定された圧縮を適用しており、これらの領域に自然に存在する情報密度の変動を無視しています。しかし、大きな圧縮は局所的なリアリズムを制限し、小さな圧縮は計算複雑性を増加させ、グローバルな一貫性を損なうことで、生成画像の品質に影響を与えます。これらの制限に対処するため、我々は異なる画像領域の重要性を認識し、それに応じて動的に圧縮することを提案し、画像生成の効果と効率を向上させるための新しい2段階フレームワークを導入します:(1)第1段階のDynamic VAE(DVAE)は、階層型エンコーダを使用して、特定の情報密度に応じて異なるダウンサンプリング率で異なる画像領域をエンコードし、拡散プロセスのためのより正確で自然な潜在コードを提供します。(2)第2段階のDynamic Diffusion Transformer(D^2iT)は、Dynamic Grain TransformerとDynamic Content Transformerの新しい組み合わせを通じて、粗粒度(滑らかな領域では少ない潜在コード)と細粒度(詳細な領域では多くの潜在コード)からなる多粒度のノイズを予測することで画像を生成します。ノイズの大まかな予測と詳細な領域の修正を組み合わせる戦略により、グローバルな一貫性と局所的なリアリズムの統一を実現します。様々な生成タスクにおける包括的な実験により、我々のアプローチの有効性が検証されました。コードはhttps://github.com/jiawn-creator/Dynamic-DiTで公開されます。
English
Diffusion models are widely recognized for their ability to generate
high-fidelity images. Despite the excellent performance and scalability of the
Diffusion Transformer (DiT) architecture, it applies fixed compression across
different image regions during the diffusion process, disregarding the
naturally varying information densities present in these regions. However,
large compression leads to limited local realism, while small compression
increases computational complexity and compromises global consistency,
ultimately impacting the quality of generated images. To address these
limitations, we propose dynamically compressing different image regions by
recognizing the importance of different regions, and introduce a novel
two-stage framework designed to enhance the effectiveness and efficiency of
image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical
encoder to encode different image regions at different downsampling rates,
tailored to their specific information densities, thereby providing more
accurate and natural latent codes for the diffusion process. (2) Dynamic
Diffusion Transformer (D^2iT) at second stage generates images by predicting
multi-grained noise, consisting of coarse-grained (less latent code in smooth
regions) and fine-grained (more latent codes in detailed regions), through an
novel combination of the Dynamic Grain Transformer and the Dynamic Content
Transformer. The strategy of combining rough prediction of noise with detailed
regions correction achieves a unification of global consistency and local
realism. Comprehensive experiments on various generation tasks validate the
effectiveness of our approach. Code will be released at
https://github.com/jiawn-creator/Dynamic-DiT.Summary
AI-Generated Summary