ChatPaper.aiChatPaper

報酬強制:報酬付き分布マッチング蒸留による効率的なストリーミング動画生成

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

December 4, 2025
著者: Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang
cs.AI

要旨

効率的なストリーミング動画生成は、インタラクティブでダイナミックな世界のシミュレーションにおいて重要である。既存手法では、スライディングウィンドウアテンションを用いた少数ステップのビデオ拡散モデルを蒸留し、初期フレームをシンクトークンとして利用することで、アテンション性能を維持し誤差蓄積を軽減している。しかし、この手法ではビデオフレームがこれらの静的なトークンに過度に依存し、初期フレームのコピーや動的表現の減衰を招く。この問題を解決するため、我々はReward Forcingという新規フレームワークを提案する。本フレームワークには2つの核心的設計が含まれる。第一に、EMA-Sinkを提案する。これは初期フレームから初期化された固定サイズのトークンを維持し、スライディングウィンドウから退出するトークンを指数移動平均で統合しながら継続的に更新する。追加の計算コストなしで、EMA-Sinkトークンは長期的な文脈と最近の動的変化の両方を捕捉し、初期フレームのコピーを防止しながら長期的な一貫性を維持する。第二に、教師モデルから動的表現をより効果的に蒸留するため、新規のRewarded Distribution Matching Distillation(Re-DMD)を提案する。従来の分布マッチングは全ての訓練サンプルを均等に扱うため、動的コンテンツを優先するモデルの能力が制限されていた。これに対しRe-DMDは、視覚言語モデルによって評価された動的性が高いサンプルを優先的に扱うことで、モデルの出力分布を高報酬領域へ偏らせる。Re-DMDはデータの忠実性を保ちつつ、動的品質を大幅に向上させる。定量的・定性的実験により、Reward Forcingが標準ベンチマークでstate-of-the-art性能を達成し、単一のH100 GPUで23.1 FPSの高品質ストリーミング動画生成を実現することを示す。
English
Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.
PDF312December 6, 2025