Forçage par Récompense : Génération Efficace de Vidéos en Flux par Distillation avec Appariement de Distribution Récompensé
Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation
December 4, 2025
papers.authors: Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang
cs.AI
papers.abstract
La génération efficace de vidéos en flux continu est essentielle pour simuler des mondes interactifs et dynamiques. Les méthodes existantes distilent des modèles de diffusion vidéo à faible nombre d'étapes avec une attention par fenêtre glissante, utilisant les images initiales comme jetons de référence pour maintenir les performances attentionnelles et réduire l'accumulation d'erreurs. Cependant, les images vidéo deviennent excessivement dépendantes de ces jetons statiques, entraînant la copie des images initiales et une diminution de la dynamique du mouvement. Pour résoudre ce problème, nous introduisons Reward Forcing, un nouveau cadre conceptuel comportant deux conceptions clés. Premièrement, nous proposons EMA-Sink, qui maintient des jetons de taille fixe initialisés à partir des images initiales et continuellement mis à jour en fusionnant les jetons évincés via une moyenne mobile exponentielle lorsqu'ils quittent la fenêtre glissante. Sans coût de calcul supplémentaire, les jetons EMA-Sink capturent à la fois le contexte à long terme et la dynamique récente, empêchant la copie des images initiales tout en maintenant la cohérence à long terme. Deuxièmement, pour mieux distiller la dynamique du mouvement des modèles enseignants, nous proposons une nouvelle Distillation par Correspondance de Distributions Récompensée (Re-DMD). La correspondance de distribution classique traite chaque échantillon d'entraînement de manière égale, limitant la capacité du modèle à prioriser le contenu dynamique. Au lieu de cela, Re-DMD biaise la distribution de sortie du modèle vers les régions à haute récompense en priorisant les échantillons présentant une plus grande dynamique évaluée par un modèle vision-langage. Re-DMD améliore significativement la qualité du mouvement tout en préservant la fidélité des données. Nous incluons des expériences quantitatives et qualitatives montrant que Reward Forcing obtient des performances de pointe sur des benchmarks standards tout en permettant une génération de vidéos en flux continu de haute qualité à 23,1 IPS sur un seul GPU H100.
English
Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.