Recompensa Forçada: Geração Eficiente de Vídeo em Fluxo Contínuo com Distilação por Correspondência de Distribuição Recompensada

Resumo

A geração eficiente de vídeo em streaming é crucial para simular mundos interativos e dinâmicos. Os métodos existentes destilam modelos de difusão de vídeo com poucos passos usando atenção de janela deslizante, utilizando quadros iniciais como tokens de ancoragem para manter o desempenho da atenção e reduzir o acúmulo de erros. No entanto, os quadros de vídeo tornam-se excessivamente dependentes desses tokens estáticos, resultando na cópia dos quadros iniciais e na diminuição da dinâmica de movimento. Para resolver isso, introduzimos o Reward Forcing, uma nova estrutura com dois designs principais. Primeiro, propomos o EMA-Sink, que mantém tokens de tamanho fixo inicializados a partir dos quadros iniciais e continuamente atualizados através da fusão de tokens removidos via média móvel exponencial quando estes saem da janela deslizante. Sem custo computacional adicional, os tokens do EMA-Sink capturam tanto o contexto de longo prazo quanto a dinâmica recente, prevenindo a cópia de quadros iniciais enquanto mantém a consistência em longos horizontes. Segundo, para melhor destilar a dinâmica de movimento dos modelos professor, propomos uma nova Destilação por Correspondência de Distribuição com Recompensa (Re-DMD). A correspondência de distribuição convencional trata todas as amostras de treino igualmente, limitando a capacidade do modelo de priorizar conteúdo dinâmico. Em vez disso, a Re-DMD inclina a distribuição de saída do modelo para regiões de alta recompensa, priorizando amostras com maior dinâmica classificadas por um modelo visão-linguagem. A Re-DMD melhora significativamente a qualidade do movimento enquanto preserva a fidelidade dos dados. Incluímos experimentos quantitativos e qualitativos para mostrar que o Reward Forcing alcança desempenho state-of-the-art em benchmarks padrão, permitindo geração de vídeo em streaming de alta qualidade a 23.1 FPS em uma única GPU H100.

English

Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.

Recompensa Forçada: Geração Eficiente de Vídeo em Fluxo Contínuo com Distilação por Correspondência de Distribuição Recompensada

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

Resumo

Support