ChatPaper.aiChatPaper

Ricompensa Forzata: Generazione Efficiente di Video in Streaming con Distillazione per Apprendimento di Distribuzioni Premiata

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

December 4, 2025
Autori: Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang
cs.AI

Abstract

La generazione efficiente di video in streaming è fondamentale per simulare mondi interattivi e dinamici. I metodi esistenti distillano modelli di diffusione video a pochi passi con attenzione a finestra scorrevole, utilizzando i frame iniziali come token sink per mantenere le prestazioni attentive e ridurre l'accumulo di errori. Tuttavia, i frame video diventano eccessivamente dipendenti da questi token statici, risultando in frame iniziali copiati e dinamiche di movimento ridotte. Per affrontare questo problema, introduciamo Reward Forcing, un framework innovativo con due elementi chiave. In primo luogo, proponiamo EMA-Sink, che mantiene token di dimensione fissa inizializzati dai frame iniziali e aggiornati continuamente fondendo i token espulsi tramite media mobile esponenziale quando escono dalla finestra scorrevole. Senza costi computazionali aggiuntivi, i token EMA-Sink catturano sia il contesto a lungo termine che le dinamiche recenti, prevenendo la copia dei frame iniziali pur mantenendo la coerenza temporale estesa. In secondo luogo, per distillare meglio le dinamiche di movimento dai modelli insegnanti, proponiamo una nuova Distillazione per Appaiamento di Distribuzione con Ricompensa (Re-DMD). L'appaiamento di distribuzione classico tratta ogni campione di addestramento in modo uguale, limitando la capacità del modello di dare priorità ai contenuti dinamici. Re-DMD invece orienta la distribuzione di output del modello verso regioni ad alta ricompensa privilegiando campioni con maggiore dinamicità valutati da un modello visione-linguaggio. Re-DMD migliora significativamente la qualità del movimento preservando la fedeltà dei dati. Includiamo esperimenti quantitativi e qualitativi che dimostrano come Reward Forcing raggiunga prestazioni allo stato dell'arte su benchmark standard, consentendo al contempo la generazione di video in streaming di alta qualità a 23.1 FPS su una singola GPU H100.
English
Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.
PDF393December 21, 2025