Atténuation des distorsions dans la génération d'images via des modèles de diffusion multi-résolution
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models
June 13, 2024
papers.authors: Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
cs.AI
papers.abstract
Cet article présente des améliorations innovantes des modèles de diffusion en intégrant un réseau multi-résolution novateur et une normalisation de couche dépendante du temps. Les modèles de diffusion ont gagné en notoriété pour leur efficacité dans la génération d'images haute fidélité. Alors que les approches conventionnelles reposent sur des architectures U-Net convolutionnelles, les conceptions récentes basées sur les Transformers ont démontré des performances et une scalabilité supérieures. Cependant, les architectures Transformer, qui tokenisent les données d'entrée (via la "patchification"), sont confrontées à un compromis entre la fidélité visuelle et la complexité computationnelle en raison de la nature quadratique des opérations d'auto-attention par rapport à la longueur des tokens. Bien que des tailles de patch plus grandes permettent une efficacité de calcul de l'attention, elles peinent à capturer des détails visuels fins, entraînant des distorsions d'image. Pour relever ce défi, nous proposons d'augmenter le modèle de diffusion avec le réseau Multi-Résolution (DiMR), un cadre qui affine les caractéristiques à travers plusieurs résolutions, améliorant progressivement les détails de la basse à la haute résolution. De plus, nous introduisons la Normalisation de Couche Dépendante du Temps (TD-LN), une approche paramétriquement efficace qui intègre des paramètres dépendants du temps dans la normalisation de couche pour injecter des informations temporelles et obtenir des performances supérieures. L'efficacité de notre méthode est démontrée sur le benchmark de génération conditionnelle par classe d'ImageNet, où les variantes DiMR-XL surpassent les modèles de diffusion précédents, établissant de nouveaux scores FID de pointe de 1,70 sur ImageNet 256 x 256 et 2,89 sur ImageNet 512 x 512. Page du projet : https://qihao067.github.io/projects/DiMR
English
This paper presents innovative enhancements to diffusion models by
integrating a novel multi-resolution network and time-dependent layer
normalization. Diffusion models have gained prominence for their effectiveness
in high-fidelity image generation. While conventional approaches rely on
convolutional U-Net architectures, recent Transformer-based designs have
demonstrated superior performance and scalability. However, Transformer
architectures, which tokenize input data (via "patchification"), face a
trade-off between visual fidelity and computational complexity due to the
quadratic nature of self-attention operations concerning token length. While
larger patch sizes enable attention computation efficiency, they struggle to
capture fine-grained visual details, leading to image distortions. To address
this challenge, we propose augmenting the Diffusion model with the
Multi-Resolution network (DiMR), a framework that refines features across
multiple resolutions, progressively enhancing detail from low to high
resolution. Additionally, we introduce Time-Dependent Layer Normalization
(TD-LN), a parameter-efficient approach that incorporates time-dependent
parameters into layer normalization to inject time information and achieve
superior performance. Our method's efficacy is demonstrated on the
class-conditional ImageNet generation benchmark, where DiMR-XL variants
outperform prior diffusion models, setting new state-of-the-art FID scores of
1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page:
https://qihao067.github.io/projects/DiMR