ChatPaper.aiChatPaper

接線を整列させる:多様体整合接線による一貫性モデルの改善

Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

October 1, 2025
著者: Beomsu Kim, Byunghee Cha, Jong Chul Ye
cs.AI

要旨

拡散モデルやフローマッチングモデルが最先端の生成性能を達成する中、コミュニティの関心は、サンプル品質を犠牲にすることなく推論時間を短縮することに向けられています。Consistency Models(CMs)は、拡散または確率流常微分方程式(PF-ODE)の軌跡において一貫性を持つように訓練され、1ステップまたは2ステップのフローまたは拡散サンプリングを可能にします。しかし、CMsは通常、競争力のあるサンプル品質を得るために、大きなバッチサイズでの長時間の訓練を必要とします。本論文では、収束近傍におけるCMsの訓練ダイナミクスを検証し、CMタンジェント(CM出力の更新方向)が非常に振動的であることを発見しました。具体的には、タンジェントがデータ多様体に向かうのではなく、多様体に平行に移動する傾向があることを示します。この振動的なタンジェントを緩和するために、我々は多様体特徴距離(Manifold Feature Distance, MFD)と呼ばれる新しい損失関数を提案します。この損失関数は、データ多様体に向かうように整列したタンジェントを提供します。その結果、我々の手法「Align Your Tangent(AYT)」は、CMの訓練を桁違いに加速し、学習済み知覚的画像パッチ類似度指標(LPIPS)を上回る性能を発揮します。さらに、この損失関数を使用することで、サンプル品質を損なうことなく、極めて小さなバッチサイズでの訓練が可能であることがわかりました。コード: https://github.com/1202kbs/AYT
English
With diffusion and flow matching models achieving state-of-the-art generating performance, the interest of the community now turned to reducing the inference time without sacrificing sample quality. Consistency Models (CMs), which are trained to be consistent on diffusion or probability flow ordinary differential equation (PF-ODE) trajectories, enable one or two-step flow or diffusion sampling. However, CMs typically require prolonged training with large batch sizes to obtain competitive sample quality. In this paper, we examine the training dynamics of CMs near convergence and discover that CM tangents -- CM output update directions -- are quite oscillatory, in the sense that they move parallel to the data manifold, not towards the manifold. To mitigate oscillatory tangents, we propose a new loss function, called the manifold feature distance (MFD), which provides manifold-aligned tangents that point toward the data manifold. Consequently, our method -- dubbed Align Your Tangent (AYT) -- can accelerate CM training by orders of magnitude and even out-perform the learned perceptual image patch similarity metric (LPIPS). Furthermore, we find that our loss enables training with extremely small batch sizes without compromising sample quality. Code: https://github.com/1202kbs/AYT
PDF22October 6, 2025