修正拡散:修正フローにおいては、まっすぐさは必要ない
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow
October 9, 2024
著者: Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
cs.AI
要旨
拡散モデルは視覚生成を大幅に向上させましたが、生成速度が遅いため、生成的ODEの解を求める計算上の負荷が大きいという問題があります。広く認識されている解決策であるRectified flowは、ODEパスをまっすぐにすることで生成速度を向上させます。その主要な構成要素は次のとおりです:1)流れ合わせの拡散形式の使用、2)太字のv-予測の利用、および3)整流(別名:リフロー)の実行。本論文では、整流の成功は、事前学習された拡散モデルを使用してノイズとサンプルの対を取得し、これらの対による再学習を行うことに主にあると主張します。このため、構成要素1)および2)は不要です。さらに、整流のための本質的なトレーニング目標はまっすぐさではなく、流れ合わせモデルの特定のケースであることを強調します。より重要なトレーニング目標は、DDPMやSub-VPのようなモデルでは本質的に曲がっている第1近似ODEパスを達成することです。この洞察を基に、Rectified Diffusionを提案し、整流の設計空間と適用範囲を拡大し、流れ合わせモデルに制限されるのではなく、より広い拡散モデルのカテゴリを包括するようにします。我々はStable Diffusion v1-5およびStable Diffusion XLで当該手法を検証します。我々の手法は、Rectified flowベースの以前の作業(例:InstaFlow)のトレーニング手順を大幅に簡素化するだけでなく、トレーニングコストをさらに低く抑えながら優れた性能を達成します。我々のコードはhttps://github.com/G-U-N/Rectified-Diffusionで入手可能です。
English
Diffusion models have greatly improved visual generation but are hindered by
slow generation speed due to the computationally intensive nature of solving
generative ODEs. Rectified flow, a widely recognized solution, improves
generation speed by straightening the ODE path. Its key components include: 1)
using the diffusion form of flow-matching, 2) employing boldsymbol
v-prediction, and 3) performing rectification (a.k.a. reflow). In this paper,
we argue that the success of rectification primarily lies in using a pretrained
diffusion model to obtain matched pairs of noise and samples, followed by
retraining with these matched noise-sample pairs. Based on this, components 1)
and 2) are unnecessary. Furthermore, we highlight that straightness is not an
essential training target for rectification; rather, it is a specific case of
flow-matching models. The more critical training target is to achieve a
first-order approximate ODE path, which is inherently curved for models like
DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion,
which generalizes the design space and application scope of rectification to
encompass the broader category of diffusion models, rather than being
restricted to flow-matching models. We validate our method on Stable Diffusion
v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the
training procedure of rectified flow-based previous works (e.g., InstaFlow) but
also achieves superior performance with even lower training cost. Our code is
available at https://github.com/G-U-N/Rectified-Diffusion.Summary
AI-Generated Summary