高速ビデオ生成のための遷移マッチング蒸留
Transition Matching Distillation for Fast Video Generation
January 14, 2026
著者: Weili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat
cs.AI
要旨
大規模なビデオ拡散モデルとフローモデルは高品質なビデオ生成において顕著な成功を収めているが、非効率な多段階サンプリングプロセスのため、リアルタイム対話型アプリケーションでの利用は依然として限られている。本研究では、Transition Matching Distillation (TMD) という、ビデオ拡散モデルを効率的な少数ステップ生成器へ蒸留する新しいフレームワークを提案する。TMDの中心的な考え方は、拡散モデルの多段階ノイズ除去軌跡を、少数ステップの確率遷移プロセスで一致させることである。ここでは各遷移が軽量な条件付きフローとしてモデル化される。効率的な蒸留を実現するため、元の拡散バックボーンを二つの構成要素に分解する:(1) 主要バックボーン(大半の初期層から成る)は各外部遷移ステップで意味的表現を抽出し、(2) フローヘッド(最後の数層から成る)はこれらの表現を利用して複数の内部フロー更新を実行する。事前学習済みのビデオ拡散モデルが与えられたとき、まずモデルにフローヘッドを導入し、それを条件付きフローマップに適合させる。次に、各遷移ステップにおけるフローヘッドのロールアウトを用いて、学生モデルに対して分布マッチング蒸留を適用する。Wan2.1 1.3Bおよび14Bのテキスト対ビデオモデルの蒸留に関する広範な実験により、TMDが生成速度と視覚的品質の間で柔軟かつ強力なトレードオフを提供することが実証されている。特に、TMDは同程度の推論コストにおいて、既存の蒸留モデルを視覚的忠実度およびプロンプト遵守度の点で凌駕する。プロジェクトページ: https://research.nvidia.com/labs/genair/tmd
English
Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd