Reduzierung von Verzerrungen bei der Bildgenerierung durch Mehrskalen-Diffusionsmodelle

papers.abstract

Dieses Paper präsentiert innovative Verbesserungen für Diffusionsmodelle durch die Integration eines neuartigen Multi-Resolution-Netzwerks und zeitabhängiger Schichtnormalisierung. Diffusionsmodelle haben an Bedeutung gewonnen aufgrund ihrer Effektivität bei der hochauflösenden Bildgenerierung. Während herkömmliche Ansätze auf faltenden U-Net-Architekturen beruhen, haben jüngste Transformer-basierte Designs eine überlegene Leistungsfähigkeit und Skalierbarkeit gezeigt. Allerdings stehen Transformer-Architekturen, die Eingabedaten tokenisieren (über "Patchifizierung"), vor einem Kompromiss zwischen visueller Treue und Rechenkomplexität aufgrund der quadratischen Natur der Self-Attention-Operationen in Bezug auf die Tokenlänge. Während größere Patchgrößen eine effiziente Berechnung der Aufmerksamkeit ermöglichen, haben sie Schwierigkeiten, feingliedrige visuelle Details zu erfassen, was zu Bildverzerrungen führt. Um diese Herausforderung anzugehen, schlagen wir vor, das Diffusionsmodell mit dem Multi-Resolution-Netzwerk (DiMR) zu erweitern, einem Rahmenwerk, das Merkmale über mehrere Auflösungen verfeinert und schrittweise Details von niedriger zu hoher Auflösung verbessert. Darüber hinaus führen wir die zeitabhängige Schichtnormalisierung (TD-LN) ein, einen parameter-effizienten Ansatz, der zeitabhängige Parameter in die Schichtnormalisierung integriert, um Zeitinformationen einzuführen und eine überlegene Leistung zu erzielen. Die Wirksamkeit unserer Methode wird anhand des klassenbedingten ImageNet-Generierungstests demonstriert, bei dem DiMR-XL-Varianten frühere Diffusionsmodelle übertreffen und neue FID-Bestwerte von 1,70 auf ImageNet 256 x 256 und 2,89 auf ImageNet 512 x 512 setzen. Projektseite: https://qihao067.github.io/projects/DiMR

English

This paper presents innovative enhancements to diffusion models by integrating a novel multi-resolution network and time-dependent layer normalization. Diffusion models have gained prominence for their effectiveness in high-fidelity image generation. While conventional approaches rely on convolutional U-Net architectures, recent Transformer-based designs have demonstrated superior performance and scalability. However, Transformer architectures, which tokenize input data (via "patchification"), face a trade-off between visual fidelity and computational complexity due to the quadratic nature of self-attention operations concerning token length. While larger patch sizes enable attention computation efficiency, they struggle to capture fine-grained visual details, leading to image distortions. To address this challenge, we propose augmenting the Diffusion model with the Multi-Resolution network (DiMR), a framework that refines features across multiple resolutions, progressively enhancing detail from low to high resolution. Additionally, we introduce Time-Dependent Layer Normalization (TD-LN), a parameter-efficient approach that incorporates time-dependent parameters into layer normalization to inject time information and achieve superior performance. Our method's efficacy is demonstrated on the class-conditional ImageNet generation benchmark, where DiMR-XL variants outperform prior diffusion models, setting new state-of-the-art FID scores of 1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page: https://qihao067.github.io/projects/DiMR

Reduzierung von Verzerrungen bei der Bildgenerierung durch Mehrskalen-Diffusionsmodelle

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

papers.abstract

Support