D^2iT: Dynamische Diffusie Transformer voor Nauwkeurige Beeldgeneratie
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation
April 13, 2025
Auteurs: Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao
cs.AI
Samenvatting
Diffusiemodellen staan algemeen bekend om hun vermogen om hoogwaardige afbeeldingen te genereren. Ondanks de uitstekende prestaties en schaalbaarheid van de Diffusion Transformer (DiT)-architectuur, past deze een vaste compressie toe over verschillende beeldregio's tijdens het diffusieproces, waarbij de van nature variërende informatiedichtheden in deze regio's worden genegeerd. Grote compressie leidt echter tot beperkte lokale realiteit, terwijl kleine compressie de rekencomplexiteit verhoogt en de globale consistentie aantast, wat uiteindelijk de kwaliteit van de gegenereerde afbeeldingen beïnvloedt. Om deze beperkingen aan te pakken, stellen we voor om verschillende beeldregio's dynamisch te comprimeren door het belang van verschillende regio's te herkennen, en introduceren we een nieuw tweestaps raamwerk dat is ontworpen om de effectiviteit en efficiëntie van beeldgeneratie te verbeteren: (1) Dynamic VAE (DVAE) in de eerste fase gebruikt een hiërarchische encoder om verschillende beeldregio's te coderen met verschillende downsampling-snelheden, afgestemd op hun specifieke informatiedichtheden, waardoor nauwkeurigere en natuurlijkere latente codes voor het diffusieproces worden geboden. (2) Dynamic Diffusion Transformer (D^2iT) in de tweede fase genereert afbeeldingen door multi-granulaire ruis te voorspellen, bestaande uit grofkorrelige (minder latente code in gladde regio's) en fijnkorrelige (meer latente codes in gedetailleerde regio's), door een nieuwe combinatie van de Dynamic Grain Transformer en de Dynamic Content Transformer. De strategie van het combineren van ruwe ruisvoorspelling met correctie van gedetailleerde regio's bereikt een eenheid van globale consistentie en lokale realiteit. Uitgebreide experimenten op verschillende generatietaken valideren de effectiviteit van onze aanpak. De code zal worden vrijgegeven op https://github.com/jiawn-creator/Dynamic-DiT.
English
Diffusion models are widely recognized for their ability to generate
high-fidelity images. Despite the excellent performance and scalability of the
Diffusion Transformer (DiT) architecture, it applies fixed compression across
different image regions during the diffusion process, disregarding the
naturally varying information densities present in these regions. However,
large compression leads to limited local realism, while small compression
increases computational complexity and compromises global consistency,
ultimately impacting the quality of generated images. To address these
limitations, we propose dynamically compressing different image regions by
recognizing the importance of different regions, and introduce a novel
two-stage framework designed to enhance the effectiveness and efficiency of
image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical
encoder to encode different image regions at different downsampling rates,
tailored to their specific information densities, thereby providing more
accurate and natural latent codes for the diffusion process. (2) Dynamic
Diffusion Transformer (D^2iT) at second stage generates images by predicting
multi-grained noise, consisting of coarse-grained (less latent code in smooth
regions) and fine-grained (more latent codes in detailed regions), through an
novel combination of the Dynamic Grain Transformer and the Dynamic Content
Transformer. The strategy of combining rough prediction of noise with detailed
regions correction achieves a unification of global consistency and local
realism. Comprehensive experiments on various generation tasks validate the
effectiveness of our approach. Code will be released at
https://github.com/jiawn-creator/Dynamic-DiT.Summary
AI-Generated Summary