ChatPaper.aiChatPaper

終端速度整合

Terminal Velocity Matching

November 24, 2025
著者: Linqi Zhou, Mathias Parger, Ayaan Haque, Jiaming Song
cs.AI

要旨

我々は、高精度な1ステップ・数ステップ生成モデリングを可能にするフローマッチングの一般化手法であるTerminal Velocity Matching(TVM)を提案する。TVMは任意の2つの拡散タイムステップ間の遷移をモデル化し、その振る舞いを初期時刻ではなく終端時刻で正則化する。モデルがリプシッツ連続である場合、TVMがデータ分布とモデル分布の間の2-ワッサーシュタイン距離の上界を提供することを証明する。しかし、Diffusion Transformerはこの性質を満たさないため、安定した単一段階の訓練を実現する最小限のアーキテクチャ変更を導入する。TVMの実用的な効率化のために、Transformerアーキテクチャでスケーラブルなヤコビアン-ベクトル積の逆伝播をサポートする融合アテンションカーネルを開発する。ImageNet-256x256では、TVMは単一関数評価(NFE)で3.29 FID、4 NFEで1.99 FIDを達成する。同様にImageNet-512x512では1-NFEで4.32 FID、4-NFEで2.94 FIDを達成し、スクラッチから学習した1ステップ/数ステップモデルとして最先端の性能を示す。
English
We propose Terminal Velocity Matching (TVM), a generalization of flow matching that enables high-fidelity one- and few-step generative modeling. TVM models the transition between any two diffusion timesteps and regularizes its behavior at its terminal time rather than at the initial time. We prove that TVM provides an upper bound on the 2-Wasserstein distance between data and model distributions when the model is Lipschitz continuous. However, since Diffusion Transformers lack this property, we introduce minimal architectural changes that achieve stable, single-stage training. To make TVM efficient in practice, we develop a fused attention kernel that supports backward passes on Jacobian-Vector Products, which scale well with transformer architectures. On ImageNet-256x256, TVM achieves 3.29 FID with a single function evaluation (NFE) and 1.99 FID with 4 NFEs. It similarly achieves 4.32 1-NFE FID and 2.94 4-NFE FID on ImageNet-512x512, representing state-of-the-art performance for one/few-step models from scratch.
PDF112December 1, 2025