D^2iT: Dynamischer Diffusions-Transformer für präzise Bildgenerierung
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation
April 13, 2025
Autoren: Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao
cs.AI
Zusammenfassung
Diffusionsmodelle sind weithin für ihre Fähigkeit bekannt, hochwertige Bilder zu erzeugen. Trotz der hervorragenden Leistung und Skalierbarkeit der Diffusion Transformer (DiT)-Architektur wendet sie während des Diffusionsprozesses eine feste Kompression auf verschiedene Bildregionen an, ohne die natürlicherweise variierenden Informationsdichten in diesen Regionen zu berücksichtigen. Eine starke Kompression führt jedoch zu einer begrenzten lokalen Realitätsnähe, während eine geringe Kompression die Rechenkomplexität erhöht und die globale Konsistenz beeinträchtigt, was letztlich die Qualität der erzeugten Bilder beeinflusst. Um diese Einschränkungen zu überwinden, schlagen wir eine dynamische Kompression verschiedener Bildregionen vor, indem wir die Bedeutung unterschiedlicher Regionen erkennen, und führen ein neuartiges zweistufiges Framework ein, das die Effektivität und Effizienz der Bildgenerierung verbessern soll: (1) Der Dynamic VAE (DVAE) in der ersten Stufe verwendet einen hierarchischen Encoder, um verschiedene Bildregionen mit unterschiedlichen Downsampling-Raten zu kodieren, die an ihre spezifischen Informationsdichten angepasst sind, und liefert dadurch genauere und natürlichere latente Codes für den Diffusionsprozess. (2) Der Dynamic Diffusion Transformer (D^2iT) in der zweiten Stufe erzeugt Bilder, indem er mehrkörniges Rauschen vorhersagt, das aus grobkörnigem (weniger latenter Code in glatten Regionen) und feinkörnigem (mehr latenter Code in detaillierten Regionen) besteht, durch eine neuartige Kombination des Dynamic Grain Transformers und des Dynamic Content Transformers. Die Strategie, die grobe Vorhersage des Rauschens mit der Korrektur detaillierter Regionen zu kombinieren, erreicht eine Vereinigung von globaler Konsistenz und lokaler Realitätsnähe. Umfassende Experimente zu verschiedenen Generierungsaufgaben bestätigen die Wirksamkeit unseres Ansatzes. Der Code wird unter https://github.com/jiawn-creator/Dynamic-DiT veröffentlicht.
English
Diffusion models are widely recognized for their ability to generate
high-fidelity images. Despite the excellent performance and scalability of the
Diffusion Transformer (DiT) architecture, it applies fixed compression across
different image regions during the diffusion process, disregarding the
naturally varying information densities present in these regions. However,
large compression leads to limited local realism, while small compression
increases computational complexity and compromises global consistency,
ultimately impacting the quality of generated images. To address these
limitations, we propose dynamically compressing different image regions by
recognizing the importance of different regions, and introduce a novel
two-stage framework designed to enhance the effectiveness and efficiency of
image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical
encoder to encode different image regions at different downsampling rates,
tailored to their specific information densities, thereby providing more
accurate and natural latent codes for the diffusion process. (2) Dynamic
Diffusion Transformer (D^2iT) at second stage generates images by predicting
multi-grained noise, consisting of coarse-grained (less latent code in smooth
regions) and fine-grained (more latent codes in detailed regions), through an
novel combination of the Dynamic Grain Transformer and the Dynamic Content
Transformer. The strategy of combining rough prediction of noise with detailed
regions correction achieves a unification of global consistency and local
realism. Comprehensive experiments on various generation tasks validate the
effectiveness of our approach. Code will be released at
https://github.com/jiawn-creator/Dynamic-DiT.Summary
AI-Generated Summary