Gerechtvaardigde Diffusie: Rechtheid Is Niet Nodig in Gerechtvaardigde Stroom
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow
October 9, 2024
Auteurs: Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
cs.AI
Samenvatting
Diffusiemodellen hebben de visuele generatie aanzienlijk verbeterd, maar worden belemmerd door een trage generatiesnelheid als gevolg van de rekenintensieve aard van het oplossen van generatieve ODE's. Gelijkgerichte stroming, een breed erkende oplossing, verbetert de generatiesnelheid door het rechttrekken van het ODE-pad. De belangrijkste componenten zijn: 1) het gebruik van de diffusievorm van stroom-matching, 2) het inzetten van vetgedrukte v-voorspelling, en 3) het uitvoeren van rectificatie (ook bekend als reflow). In dit artikel betogen we dat het succes van rectificatie voornamelijk ligt in het gebruik van een voorgeleerd diffusiemodel om gematchte paren van ruis en monsters te verkrijgen, gevolgd door hertraining met deze gematchte ruis-monsterparen. Op basis hiervan zijn componenten 1) en 2) overbodig. Bovendien benadrukken we dat rechtlijnigheid geen essentieel trainingsdoel is voor rectificatie; het is eerder een specifiek geval van stroom-matching modellen. Het belangrijkste trainingsdoel is het bereiken van een ODE-pad van eerste orde benadering, dat inherent gebogen is voor modellen zoals DDPM en Sub-VP. Voortbouwend op deze inzichten stellen we Rectified Diffusion voor, dat het ontwerpruimte en toepassingsgebied van rectificatie generaliseert om de bredere categorie van diffusiemodellen te omvatten, in plaats van beperkt te zijn tot stroom-matching modellen. We valideren onze methode op Stable Diffusion v1-5 en Stable Diffusion XL. Onze methode vereenvoudigt niet alleen aanzienlijk de trainingsprocedure van eerder werk gebaseerd op gerechtvaardigde stroming (bijv. InstaFlow), maar behaalt ook superieure prestaties met zelfs lagere trainingskosten. Onze code is beschikbaar op https://github.com/G-U-N/Rectified-Diffusion.
English
Diffusion models have greatly improved visual generation but are hindered by
slow generation speed due to the computationally intensive nature of solving
generative ODEs. Rectified flow, a widely recognized solution, improves
generation speed by straightening the ODE path. Its key components include: 1)
using the diffusion form of flow-matching, 2) employing boldsymbol
v-prediction, and 3) performing rectification (a.k.a. reflow). In this paper,
we argue that the success of rectification primarily lies in using a pretrained
diffusion model to obtain matched pairs of noise and samples, followed by
retraining with these matched noise-sample pairs. Based on this, components 1)
and 2) are unnecessary. Furthermore, we highlight that straightness is not an
essential training target for rectification; rather, it is a specific case of
flow-matching models. The more critical training target is to achieve a
first-order approximate ODE path, which is inherently curved for models like
DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion,
which generalizes the design space and application scope of rectification to
encompass the broader category of diffusion models, rather than being
restricted to flow-matching models. We validate our method on Stable Diffusion
v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the
training procedure of rectified flow-based previous works (e.g., InstaFlow) but
also achieves superior performance with even lower training cost. Our code is
available at https://github.com/G-U-N/Rectified-Diffusion.Summary
AI-Generated Summary