ChatPaper.aiChatPaper

Belohnungs-Erzwingung: Effiziente Streaming-Videogenerierung mit belohnungsbasierter Verteilungsanpassungs-Distillation

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

December 4, 2025
papers.authors: Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang
cs.AI

papers.abstract

Effiziente Streaming-Videogenerierung ist entscheidend für die Simulation interaktiver und dynamischer Welten. Bestehende Methoden destillieren Videodiffusionsmodelle mit wenigen Schritten unter Verwendung von Sliding-Window-Attention, wobei Anfangsrahmen als Sink-Tokens genutzt werden, um die Aufmerksamkeitsleistung zu erhalten und Fehlerakkumulation zu reduzieren. Allerdings werden Videorahmen dadurch übermäßig abhängig von diesen statischen Tokens, was zu kopierten Anfangsrahmen und verminderter Bewegungsdynamik führt. Um dies zu adressieren, führen wir Reward Forcing ein, ein neuartiges Framework mit zwei zentralen Komponenten. Erstens schlagen wir EMA-Sink vor, das Tokens fester Größe verwaltet, die aus Anfangsrahmen initialisiert und kontinuierlich durch Fusion verdrängter Tokens mittels exponentiell gleitendem Durchschnitt aktualisiert werden, sobald diese das Sliding Window verlassen. Ohne zusätzlichen Rechenaufwand erfassen EMA-Sink-Tokens sowohl langfristigen Kontext als auch aktuelle Dynamik, verhindern das Kopieren von Anfangsrahmen und bewahren gleichzeitig die Konsistenz über lange Sequenzen. Zweitens schlagen wir zur besseren Destillation von Bewegungsdynamik aus Lehrermodellen ein neuartiges Rewarded Distribution Matching Distillation (Re-DMD) vor. Herkömmliches Distribution Matching behandelt jedes Trainingsbeispiel gleich, was die Fähigkeit des Modells einschränkt, dynamische Inhalte zu priorisieren. Stattdessen neigt Re-DMD die Ausgabeverteilung des Modells zu Hoch-Reward-Bereichen, indem es Beispiele mit stärkerer Dynamik priorisiert, die durch ein Vision-Language-Modell bewertet wird. Re-DMD verbessert die Bewegungsqualität erheblich, bei gleichzeitiger Wahrung der Datentreue. Wir präsentieren quantitative und qualitative Experimente, die zeigen, dass Reward Forcing state-of-the-art Leistung auf Standard-Benchmarks erreicht und dabei hochwertige Streaming-Videogenerierung mit 23,1 FPS auf einer einzelnen H100-GPU ermöglicht.
English
Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.
PDF312December 6, 2025