ChatPaper.aiChatPaper

Matrjoschka-Diffusionsmodelle

Matryoshka Diffusion Models

October 23, 2023
Autoren: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Josh Susskind, Navdeep Jaitly
cs.AI

Zusammenfassung

Diffusionsmodelle sind der de-facto-Ansatz zur Erzeugung hochwertiger Bilder und Videos, doch das Lernen hochdimensionaler Modelle bleibt aufgrund von Rechen- und Optimierungsherausforderungen eine schwierige Aufgabe. Bestehende Methoden greifen oft darauf zurück, kaskadierte Modelle im Pixelraum zu trainieren oder einen heruntergerechneten latenten Raum eines separat trainierten Autoencoders zu verwenden. In diesem Artikel stellen wir Matryoshka-Diffusionsmodelle (MDM) vor, ein End-to-End-Framework für die Synthese hochauflösender Bilder und Videos. Wir schlagen einen Diffusionsprozess vor, der Eingaben in mehreren Auflösungen gemeinsam entrauscht und eine NestedUNet-Architektur verwendet, bei der Merkmale und Parameter für kleinere Eingaben in denen für größere Eingaben verschachtelt sind. Darüber hinaus ermöglicht MDM einen progressiven Trainingsplan von niedrigeren zu höheren Auflösungen, was zu erheblichen Verbesserungen bei der Optimierung für die Hochauflösungsgenerierung führt. Wir demonstrieren die Wirksamkeit unseres Ansatzes anhand verschiedener Benchmarks, einschließlich klassenbedingter Bildgenerierung, hochauflösender Text-zu-Bild- und Text-zu-Video-Anwendungen. Bemerkenswerterweise können wir ein einzelnes Pixelraummodell bei Auflösungen von bis zu 1024x1024 Pixeln trainieren und zeigen eine starke Zero-Shot-Generalisierung mit dem CC12M-Datensatz, der nur 12 Millionen Bilder enthält.
English
Diffusion models are the de facto approach for generating high-quality images and videos, but learning high-dimensional models remains a formidable task due to computational and optimization challenges. Existing methods often resort to training cascaded models in pixel space or using a downsampled latent space of a separately trained auto-encoder. In this paper, we introduce Matryoshka Diffusion Models(MDM), an end-to-end framework for high-resolution image and video synthesis. We propose a diffusion process that denoises inputs at multiple resolutions jointly and uses a NestedUNet architecture where features and parameters for small-scale inputs are nested within those of large scales. In addition, MDM enables a progressive training schedule from lower to higher resolutions, which leads to significant improvements in optimization for high-resolution generation. We demonstrate the effectiveness of our approach on various benchmarks, including class-conditioned image generation, high-resolution text-to-image, and text-to-video applications. Remarkably, we can train a single pixel-space model at resolutions of up to 1024x1024 pixels, demonstrating strong zero-shot generalization using the CC12M dataset, which contains only 12 million images.
PDF435December 15, 2024