ChatPaper.aiChatPaper

Beloning Forceren: Efficiënte Streaming Videogeneratie met Gedistilleerde Distributie-afstemming via Beloning

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

December 4, 2025
Auteurs: Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang
cs.AI

Samenvatting

Efficiënte streaming videogeneratie is cruciaal voor het simuleren van interactieve en dynamische werelden. Bestaande methodes destilleren videodiffusiemodellen met weinig stappen en sliding window-attentie, waarbij initiële frames als sink-tokens worden gebruikt om de aandachtsprestaties te behouden en foutaccumulatie te verminderen. Echter, videoframes worden hierdoor te afhankelijk van deze statische tokens, wat leidt tot gekopieerde initiële frames en verminderde bewegingsdynamiek. Om dit aan te pakken, introduceren we Reward Forcing, een nieuw raamwerk met twee belangrijke ontwerpen. Ten eerste stellen we EMA-Sink voor, dat tokens met vaste grootte handhaaft die zijn geïnitialiseerd vanuit initiële frames en continu worden bijgewerkt door verdreven tokens te fuseren via exponentieel voortschrijdend gemiddelde wanneer ze het sliding window verlaten. Zonder extra rekenkosten vangen EMA-Sink-tokens zowel langetermijncontext als recente dynamiek op, voorkomen ze het kopiëren van initiële frames en behouden ze consistentie over lange horizonnen. Ten tweede, om bewegingsdynamiek beter te destilleren uit leraarmodellen, stellen we een nieuwe Rewarded Distribution Matching Distillation (Re-DMD) voor. Standaard distributie-afstemming behandelt elke trainingssample gelijkelijk, wat het vermogen van het model beperkt om dynamische content te prioriteren. In plaats daarvan kantelt Re-DMD de uitvoerdistributie van het model naar hoogbeloonde regio's door samples met meer dynamiek, beoordeeld door een vision-language model, te prioriteren. Re-DMD verbetert de bewegingskwaliteit aanzienlijk terwijl de data-getrouwheid behouden blijft. We includeren zowel kwantitatieve als kwalitatieve experimenten om aan te tonen dat Reward Forcing state-of-the-art prestaties bereikt op standaard benchmarks en tegelijkertijd hoogwaardige streaming videogeneratie mogelijk maakt met 23.1 FPS op een enkele H100 GPU.
English
Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.
PDF393December 21, 2025