ChatPaper.aiChatPaper

Recompensa Forzada: Generación Eficiente de Vídeo en Flujo Continuo mediante Distilación por Correspondencia de Distribuciones Recompensadas

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

December 4, 2025
Autores: Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang
cs.AI

Resumen

La generación eficiente de vídeo en streaming es crucial para simular mundos interactivos y dinámicos. Los métodos existentes destilan modelos de difusión de vídeo de pocos pasos con atención de ventana deslizante, utilizando los fotogramas iniciales como tokens de anclaje para mantener el rendimiento de la atención y reducir la acumulación de errores. Sin embargo, los fotogramas de vídeo se vuelven excesivamente dependientes de estos tokens estáticos, lo que resulta en la copia de los fotogramas iniciales y una dinámica de movimiento reducida. Para abordar este problema, presentamos Reward Forcing, un marco novedoso con dos diseños clave. En primer lugar, proponemos EMA-Sink, que mantiene tokens de tamaño fijo inicializados a partir de los fotogramas iniciales y actualizados continuamente fusionando los tokens desplazados mediante una media móvil exponencial a medida que salen de la ventana deslizante. Sin coste computacional adicional, los tokens de EMA-Sink capturan tanto el contexto a largo plazo como la dinámica reciente, evitando la copia de fotogramas iniciales mientras se mantiene la coherencia temporal prolongada. En segundo lugar, para destilar mejor la dinámica de movimiento de los modelos docentes, proponemos una novedosa Destilación por Correspondencia de Distribución Recompensada (Re-DMD). La correspondencia de distribución básica trata cada muestra de entrenamiento por igual, limitando la capacidad del modelo para priorizar el contenido dinámico. En su lugar, Re-DMD sesga la distribución de salida del modelo hacia regiones de alta recompensa priorizando muestras con mayor dinámica evaluadas por un modelo visión-lenguaje. Re-DMD mejora significativamente la calidad del movimiento preservando la fidelidad de los datos. Incluimos experimentos cuantitativos y cualitativos que demuestran que Reward Forcing alcanza un rendimiento de vanguardia en benchmarks estándar, permitiendo la generación de vídeo en streaming de alta calidad a 23.1 FPS en una única GPU H100.
English
Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.
PDF312December 6, 2025