Salt: 高速ビデオ生成のためのキャッシュ対応トレーニングによる自己整合的分布マッチング
Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation
April 3, 2026
著者: Xingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang
cs.AI
要旨
動画生成モデルの推論コストを極限まで低減(例:2~4回のノイズ除去ステップ)することはリアルタイム展開において重要であるが、依然として課題が多い。軌道整合性に基づく蒸留法は、複雑な動的変化下では保守的になりがちで、過度に平滑化された外観や弱い動きを生み出す。分布マッチング蒸留法(DMD)は鮮明でモード探索的なサンプルを復元できるが、その局所的な学習信号はノイズ除去の更新がタイムステップ間でどのように合成されるかを明示的に正則化しないため、合成されたロールアウトがドリフトしやすい。この課題を克服するため、我々は連続するノイズ除去更新の端点整合的な合成を明示的に正則化する、自己整合型分布マッチング蒸留法(SC-DMD)を提案する。リアルタイム自己回帰型動画生成においては、さらにKVキャッシュを品質パラメータ化条件として扱い、キャッシュ分布対応学習(Cache-Distribution-Aware training)を提案する。この学習スキームは、多ステップのロールアウトにわたってSC-DMDを適用し、低品質な出力を高品質な参照へと導くキャッシュ条件付き特徴量整合目的関数を導入する。非自己回帰型基盤モデル(Wan 2.1等)と自己回帰型リアルタイムパラダイム(Self Forcing等)の両方にわたる広範な実験を通じて、我々の手法「Salt」は、多様なKVキャッシュメカニズムとの互換性を保ちつつ、低ステップ数での動画生成品質を一貫して向上させることが示された。ソースコードはhttps://github.com/XingtongGe/Salt で公開予定である。
English
Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed Salt, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at https://github.com/XingtongGe/Salt{https://github.com/XingtongGe/Salt}.