Reduzierung von Verzerrungen bei der Bildgenerierung durch Mehrskalen-Diffusionsmodelle
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models
June 13, 2024
papers.authors: Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
cs.AI
papers.abstract
Dieses Paper präsentiert innovative Verbesserungen für Diffusionsmodelle durch die Integration eines neuartigen Multi-Resolution-Netzwerks und zeitabhängiger Schichtnormalisierung. Diffusionsmodelle haben an Bedeutung gewonnen aufgrund ihrer Effektivität bei der hochauflösenden Bildgenerierung. Während herkömmliche Ansätze auf faltenden U-Net-Architekturen beruhen, haben jüngste Transformer-basierte Designs eine überlegene Leistungsfähigkeit und Skalierbarkeit gezeigt. Allerdings stehen Transformer-Architekturen, die Eingabedaten tokenisieren (über "Patchifizierung"), vor einem Kompromiss zwischen visueller Treue und Rechenkomplexität aufgrund der quadratischen Natur der Self-Attention-Operationen in Bezug auf die Tokenlänge. Während größere Patchgrößen eine effiziente Berechnung der Aufmerksamkeit ermöglichen, haben sie Schwierigkeiten, feingliedrige visuelle Details zu erfassen, was zu Bildverzerrungen führt. Um diese Herausforderung anzugehen, schlagen wir vor, das Diffusionsmodell mit dem Multi-Resolution-Netzwerk (DiMR) zu erweitern, einem Rahmenwerk, das Merkmale über mehrere Auflösungen verfeinert und schrittweise Details von niedriger zu hoher Auflösung verbessert. Darüber hinaus führen wir die zeitabhängige Schichtnormalisierung (TD-LN) ein, einen parameter-effizienten Ansatz, der zeitabhängige Parameter in die Schichtnormalisierung integriert, um Zeitinformationen einzuführen und eine überlegene Leistung zu erzielen. Die Wirksamkeit unserer Methode wird anhand des klassenbedingten ImageNet-Generierungstests demonstriert, bei dem DiMR-XL-Varianten frühere Diffusionsmodelle übertreffen und neue FID-Bestwerte von 1,70 auf ImageNet 256 x 256 und 2,89 auf ImageNet 512 x 512 setzen. Projektseite: https://qihao067.github.io/projects/DiMR
English
This paper presents innovative enhancements to diffusion models by
integrating a novel multi-resolution network and time-dependent layer
normalization. Diffusion models have gained prominence for their effectiveness
in high-fidelity image generation. While conventional approaches rely on
convolutional U-Net architectures, recent Transformer-based designs have
demonstrated superior performance and scalability. However, Transformer
architectures, which tokenize input data (via "patchification"), face a
trade-off between visual fidelity and computational complexity due to the
quadratic nature of self-attention operations concerning token length. While
larger patch sizes enable attention computation efficiency, they struggle to
capture fine-grained visual details, leading to image distortions. To address
this challenge, we propose augmenting the Diffusion model with the
Multi-Resolution network (DiMR), a framework that refines features across
multiple resolutions, progressively enhancing detail from low to high
resolution. Additionally, we introduce Time-Dependent Layer Normalization
(TD-LN), a parameter-efficient approach that incorporates time-dependent
parameters into layer normalization to inject time information and achieve
superior performance. Our method's efficacy is demonstrated on the
class-conditional ImageNet generation benchmark, where DiMR-XL variants
outperform prior diffusion models, setting new state-of-the-art FID scores of
1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page:
https://qihao067.github.io/projects/DiMR