Принуждение к вознаграждению: Эффективная потоковая генерация видео с дистилляцией методом согласования распределений на основе вознаграждения
Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation
December 4, 2025
Авторы: Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang
cs.AI
Аннотация
Эффективная генерация потокового видео критически важна для моделирования интерактивных и динамичных миров. Существующие методы дистиллируют многошаговые диффузионные модели видео с применением скользящего оконного внимания, используя начальные кадры в качестве sink-токенов для сохранения производительности механизма внимания и снижения накопления ошибок. Однако видеокадры становятся чрезмерно зависимыми от этих статических токенов, что приводит к копированию начальных кадров и ослаблению динамики движения. Для решения этой проблемы мы представляем Reward Forcing — новую архитектуру с двумя ключевыми компонентами. Во-первых, мы предлагаем EMA-Sink, который поддерживает токены фиксированного размера, инициализированные из начальных кадров и постоянно обновляемые путем слияния вытесняемых токенов посредством экспоненциального скользящего среднего по мере их выхода из скользящего окна. Без дополнительных вычислительных затрат токены EMA-Sink захватывают как долгосрочный контекст, так и recentнюю динамику, предотвращая копирование начальных кадров при сохранении согласованности на длинных промежутках. Во-вторых, для лучшей дистилляции динамики движения из учительских моделей мы предлагаем новый метод Rewarded Distribution Matching Distillation (Re-DMD). Стандартное согласование распределений обрабатывает каждый пример обучения одинаково, ограничивая способность модели приоритизировать динамическое содержимое. Вместо этого Re-DMD смещает выходное распределение модели в сторону областей с высоким вознаграждением, отдавая приоритет примерам с большей динамикой, оцененной vision-language моделью. Re-DMD значительно улучшает качество движения при сохранении достоверности данных. Мы проводим количественные и качественные эксперименты, демонстрирующие, что Reward Forcing достигает state-of-the-art результатов на стандартных бенчмарках, обеспечивая генерацию высококачественного потокового видео со скоростью 23.1 кадра в секунду на одном GPU H100.
English
Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.