Diffusion rectifiée : La rectitude n'est pas nécessaire dans le flux rectifié
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow
October 9, 2024
Auteurs: Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
cs.AI
Résumé
Les modèles de diffusion ont considérablement amélioré la génération visuelle mais sont entravés par une lente vitesse de génération en raison de la nature intensivement calculatoire de la résolution des EDO génératives. Le flux redressé, une solution largement reconnue, améliore la vitesse de génération en redressant le chemin des EDO. Ses composants clés incluent : 1) l'utilisation de la forme de diffusion de l'appariement de flux, 2) l'emploi de la prédiction en gras v, et 3) l'exécution de la rectification (alias reflow). Dans cet article, nous soutenons que le succès de la rectification réside principalement dans l'utilisation d'un modèle de diffusion pré-entraîné pour obtenir des paires appariées de bruit et d'échantillons, suivie d'une reformation avec ces paires appariées de bruit-échantillon. Sur cette base, les composants 1) et 2) sont superflus. De plus, nous soulignons que la rectitude n'est pas un objectif d'entraînement essentiel pour la rectification ; c'est plutôt un cas spécifique des modèles d'appariement de flux. L'objectif d'entraînement le plus critique est d'atteindre un chemin d'EDO approximatif de premier ordre, qui est intrinsèquement courbé pour des modèles comme DDPM et Sub-VP. S'appuyant sur cette compréhension, nous proposons la Diffusion Redressée, qui généralise l'espace de conception et le champ d'application de la rectification pour englober la catégorie plus large des modèles de diffusion, plutôt que d'être limitée aux modèles d'appariement de flux. Nous validons notre méthode sur Stable Diffusion v1-5 et Stable Diffusion XL. Notre méthode simplifie considérablement la procédure d'entraînement des travaux antérieurs basés sur le flux redressé (par exemple, InstaFlow) tout en atteignant des performances supérieures avec un coût d'entraînement encore plus bas. Notre code est disponible sur https://github.com/G-U-N/Rectified-Diffusion.
English
Diffusion models have greatly improved visual generation but are hindered by
slow generation speed due to the computationally intensive nature of solving
generative ODEs. Rectified flow, a widely recognized solution, improves
generation speed by straightening the ODE path. Its key components include: 1)
using the diffusion form of flow-matching, 2) employing boldsymbol
v-prediction, and 3) performing rectification (a.k.a. reflow). In this paper,
we argue that the success of rectification primarily lies in using a pretrained
diffusion model to obtain matched pairs of noise and samples, followed by
retraining with these matched noise-sample pairs. Based on this, components 1)
and 2) are unnecessary. Furthermore, we highlight that straightness is not an
essential training target for rectification; rather, it is a specific case of
flow-matching models. The more critical training target is to achieve a
first-order approximate ODE path, which is inherently curved for models like
DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion,
which generalizes the design space and application scope of rectification to
encompass the broader category of diffusion models, rather than being
restricted to flow-matching models. We validate our method on Stable Diffusion
v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the
training procedure of rectified flow-based previous works (e.g., InstaFlow) but
also achieves superior performance with even lower training cost. Our code is
available at https://github.com/G-U-N/Rectified-Diffusion.Summary
AI-Generated Summary