ChatPaper.aiChatPaper

Het verminderen van vervorming in beeldgeneratie via multi-resolutie diffusiemodellen

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

June 13, 2024
Auteurs: Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
cs.AI

Samenvatting

Dit artikel presenteert innovatieve verbeteringen aan diffusiemodellen door de integratie van een nieuw multi-resolutie netwerk en tijdafhankelijke laagnormalisatie. Diffusiemodellen hebben aan populariteit gewonnen vanwege hun effectiviteit in het genereren van hoogwaardige afbeeldingen. Terwijl conventionele benaderingen vertrouwen op convolutionele U-Net-architecturen, hebben recente Transformer-gebaseerde ontwerpen superieure prestaties en schaalbaarheid getoond. Echter, Transformer-architecturen, die invoergegevens tokeniseren (via "patchificatie"), worden geconfronteerd met een afweging tussen visuele kwaliteit en rekencomplexiteit vanwege de kwadratische aard van zelf-attentiebewerkingen ten opzichte van de tokenlengte. Hoewel grotere patchgroottes de efficiëntie van attentieberekeningen bevorderen, hebben ze moeite met het vastleggen van fijnmazige visuele details, wat leidt tot beeldvervormingen. Om deze uitdaging aan te pakken, stellen we voor om het diffusiemodel aan te vullen met het Multi-Resolutie netwerk (DiMR), een raamwerk dat kenmerken verfijnt over meerdere resoluties, waarbij details progressief worden verbeterd van lage naar hoge resolutie. Daarnaast introduceren we Tijdafhankelijke Laagnormalisatie (TD-LN), een parameter-efficiënte benadering die tijdafhankelijke parameters integreert in laagnormalisatie om tijdsinformatie in te brengen en superieure prestaties te bereiken. De effectiviteit van onze methode wordt aangetoond op de klasse-conditionele ImageNet-generatiebenchmark, waar DiMR-XL-varianten eerdere diffusiemodellen overtreffen en nieuwe state-of-the-art FID-scores behalen van 1,70 op ImageNet 256 x 256 en 2,89 op ImageNet 512 x 512. Projectpagina: https://qihao067.github.io/projects/DiMR
English
This paper presents innovative enhancements to diffusion models by integrating a novel multi-resolution network and time-dependent layer normalization. Diffusion models have gained prominence for their effectiveness in high-fidelity image generation. While conventional approaches rely on convolutional U-Net architectures, recent Transformer-based designs have demonstrated superior performance and scalability. However, Transformer architectures, which tokenize input data (via "patchification"), face a trade-off between visual fidelity and computational complexity due to the quadratic nature of self-attention operations concerning token length. While larger patch sizes enable attention computation efficiency, they struggle to capture fine-grained visual details, leading to image distortions. To address this challenge, we propose augmenting the Diffusion model with the Multi-Resolution network (DiMR), a framework that refines features across multiple resolutions, progressively enhancing detail from low to high resolution. Additionally, we introduce Time-Dependent Layer Normalization (TD-LN), a parameter-efficient approach that incorporates time-dependent parameters into layer normalization to inject time information and achieve superior performance. Our method's efficacy is demonstrated on the class-conditional ImageNet generation benchmark, where DiMR-XL variants outperform prior diffusion models, setting new state-of-the-art FID scores of 1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page: https://qihao067.github.io/projects/DiMR
PDF291February 7, 2026