ChatPaper.aiChatPaper

Vereinfachung, Stabilisierung und Skalierung von Kontinuierlichen Zeit Konsistenzmodellen

Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models

October 14, 2024
Autoren: Cheng Lu, Yang Song
cs.AI

Zusammenfassung

Konsistenzmodelle (CMs) sind eine leistungsstarke Klasse von Diffusions-basierten generativen Modellen, die für schnelles Sampling optimiert sind. Die meisten bestehenden CMs werden unter Verwendung diskretisierter Zeitschritte trainiert, die zusätzliche Hyperparameter einführen und anfällig für Diskretisierungsfehler sind. Während kontinuierliche Zeitformulierungen diese Probleme mildern können, war ihr Erfolg durch Trainingsinstabilität begrenzt. Um dies zu lösen, schlagen wir einen vereinfachten theoretischen Rahmen vor, der frühere Parametrisierungen von Diffusionsmodellen und CMs vereinheitlicht und die Ursachen für Instabilität identifiziert. Basierend auf dieser Analyse führen wir wesentliche Verbesserungen in der Parameterisierung des Diffusionsprozesses, der Netzwerkarchitektur und der Trainingsziele ein. Diese Änderungen ermöglichen es uns, kontinuierliche CMs in einem noch nie dagewesenen Maßstab zu trainieren, wobei wir 1,5 Milliarden Parameter auf ImageNet 512x512 erreichen. Unser vorgeschlagener Trainingsalgorithmus, der nur zwei Sampling-Schritte verwendet, erzielt FID-Werte von 2,06 auf CIFAR-10, 1,48 auf ImageNet 64x64 und 1,88 auf ImageNet 512x512, wodurch der Unterschied in den FID-Werten zu den besten bestehenden Diffusionsmodellen auf weniger als 10% reduziert wird.
English
Consistency models (CMs) are a powerful class of diffusion-based generative models optimized for fast sampling. Most existing CMs are trained using discretized timesteps, which introduce additional hyperparameters and are prone to discretization errors. While continuous-time formulations can mitigate these issues, their success has been limited by training instability. To address this, we propose a simplified theoretical framework that unifies previous parameterizations of diffusion models and CMs, identifying the root causes of instability. Based on this analysis, we introduce key improvements in diffusion process parameterization, network architecture, and training objectives. These changes enable us to train continuous-time CMs at an unprecedented scale, reaching 1.5B parameters on ImageNet 512x512. Our proposed training algorithm, using only two sampling steps, achieves FID scores of 2.06 on CIFAR-10, 1.48 on ImageNet 64x64, and 1.88 on ImageNet 512x512, narrowing the gap in FID scores with the best existing diffusion models to within 10%.
PDF193November 16, 2024