ChatPaper.aiChatPaper

Rektifizierte Diffusion: Geradlinigkeit ist nicht erforderlich im rektifizierten Fluss.

Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

October 9, 2024
Autoren: Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
cs.AI

Zusammenfassung

Diffusionsmodelle haben die visuelle Generierung erheblich verbessert, werden jedoch durch die langsame Generierungsgeschwindigkeit aufgrund der rechenaufwändigen Natur der Lösung generativer ODEs behindert. Die geradlinige Strömung, eine weit verbreitete Lösung, verbessert die Generierungsgeschwindigkeit, indem der ODE-Pfad geglättet wird. Zu den Schlüsselkomponenten gehören: 1) die Verwendung der Diffusionsform der Flussanpassung, 2) die Verwendung von fettgedruckter v-Vorhersage und 3) die Durchführung der Rektifizierung (auch als Rückfluss bezeichnet). In diesem Papier argumentieren wir, dass der Erfolg der Rektifizierung hauptsächlich darin besteht, ein vorab trainiertes Diffusionsmodell zu verwenden, um passende Paare von Rauschen und Mustern zu erhalten, gefolgt von einem erneuten Training mit diesen passenden Rausch-Muster-Paaren. Basierend darauf sind die Komponenten 1) und 2) unnötig. Darüber hinaus heben wir hervor, dass Geradlinigkeit kein wesentliches Trainingsziel für die Rektifizierung ist; vielmehr handelt es sich um einen spezifischen Fall von Flussanpassungsmodellen. Das wichtigere Trainingsziel ist es, einen ODE-Pfad erster Ordnung anzunähern, der für Modelle wie DDPM und Sub-VP von Natur aus gekrümmt ist. Aufbauend auf dieser Erkenntnis schlagen wir die Rektifizierte Diffusion vor, die den Designraum und den Anwendungsbereich der Rektifizierung verallgemeinert, um die breitere Kategorie der Diffusionsmodelle zu umfassen, anstatt auf Flussanpassungsmodelle beschränkt zu sein. Wir validieren unsere Methode anhand von Stable Diffusion v1-5 und Stable Diffusion XL. Unsere Methode vereinfacht nicht nur erheblich das Schulungsverfahren früherer Arbeiten auf der Grundlage von geradliniger Strömung (z. B. InstaFlow), sondern erzielt auch eine überlegene Leistung bei noch niedrigeren Schulungskosten. Unser Code ist verfügbar unter https://github.com/G-U-N/Rectified-Diffusion.
English
Diffusion models have greatly improved visual generation but are hindered by slow generation speed due to the computationally intensive nature of solving generative ODEs. Rectified flow, a widely recognized solution, improves generation speed by straightening the ODE path. Its key components include: 1) using the diffusion form of flow-matching, 2) employing boldsymbol v-prediction, and 3) performing rectification (a.k.a. reflow). In this paper, we argue that the success of rectification primarily lies in using a pretrained diffusion model to obtain matched pairs of noise and samples, followed by retraining with these matched noise-sample pairs. Based on this, components 1) and 2) are unnecessary. Furthermore, we highlight that straightness is not an essential training target for rectification; rather, it is a specific case of flow-matching models. The more critical training target is to achieve a first-order approximate ODE path, which is inherently curved for models like DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion, which generalizes the design space and application scope of rectification to encompass the broader category of diffusion models, rather than being restricted to flow-matching models. We validate our method on Stable Diffusion v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the training procedure of rectified flow-based previous works (e.g., InstaFlow) but also achieves superior performance with even lower training cost. Our code is available at https://github.com/G-U-N/Rectified-Diffusion.

Summary

AI-Generated Summary

PDF183November 16, 2024