Mitigare la Distorsione nella Generazione di Immagini tramite Modelli di Diffusione Multi-Risoluzione
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models
June 13, 2024
Autori: Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Abstract
Questo articolo presenta innovativi miglioramenti ai modelli di diffusione attraverso l'integrazione di una nuova rete multi-risoluzione e di una normalizzazione a strati dipendente dal tempo. I modelli di diffusione hanno guadagnato importanza per la loro efficacia nella generazione di immagini ad alta fedeltà. Mentre gli approcci convenzionali si basano su architetture convoluzionali U-Net, i recenti design basati su Transformer hanno dimostrato prestazioni e scalabilità superiori. Tuttavia, le architetture Transformer, che tokenizzano i dati di input (tramite "patchificazione"), affrontano un compromesso tra fedeltà visiva e complessità computazionale a causa della natura quadratica delle operazioni di self-attention rispetto alla lunghezza dei token. Sebbene dimensioni di patch più grandi consentano un'efficiente computazione dell'attenzione, esse faticano a catturare dettagli visivi fini, portando a distorsioni delle immagini. Per affrontare questa sfida, proponiamo di potenziare il modello di diffusione con la rete Multi-Risoluzione (DiMR), un framework che affina le caratteristiche attraverso più risoluzioni, migliorando progressivamente i dettagli da una risoluzione bassa a una alta. Inoltre, introduciamo la Normalizzazione a Strati Dipendente dal Tempo (TD-LN), un approccio efficiente in termini di parametri che incorpora parametri dipendenti dal tempo nella normalizzazione a strati per iniettare informazioni temporali e ottenere prestazioni superiori. L'efficacia del nostro metodo è dimostrata sul benchmark di generazione condizionata alla classe di ImageNet, dove le varianti DiMR-XL superano i precedenti modelli di diffusione, stabilendo nuovi punteggi FID state-of-the-art di 1.70 su ImageNet 256 x 256 e 2.89 su ImageNet 512 x 512. Pagina del progetto: https://qihao067.github.io/projects/DiMR
English
This paper presents innovative enhancements to diffusion models by
integrating a novel multi-resolution network and time-dependent layer
normalization. Diffusion models have gained prominence for their effectiveness
in high-fidelity image generation. While conventional approaches rely on
convolutional U-Net architectures, recent Transformer-based designs have
demonstrated superior performance and scalability. However, Transformer
architectures, which tokenize input data (via "patchification"), face a
trade-off between visual fidelity and computational complexity due to the
quadratic nature of self-attention operations concerning token length. While
larger patch sizes enable attention computation efficiency, they struggle to
capture fine-grained visual details, leading to image distortions. To address
this challenge, we propose augmenting the Diffusion model with the
Multi-Resolution network (DiMR), a framework that refines features across
multiple resolutions, progressively enhancing detail from low to high
resolution. Additionally, we introduce Time-Dependent Layer Normalization
(TD-LN), a parameter-efficient approach that incorporates time-dependent
parameters into layer normalization to inject time information and achieve
superior performance. Our method's efficacy is demonstrated on the
class-conditional ImageNet generation benchmark, where DiMR-XL variants
outperform prior diffusion models, setting new state-of-the-art FID scores of
1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page:
https://qihao067.github.io/projects/DiMR