ChatPaper.aiChatPaper

Forçamento Progressivo: Difusão Autoregressiva de Vídeos Longos em Tempo Real

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

September 29, 2025
Autores: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI

Resumo

A geração de vídeos em streaming, como um componente fundamental em modelos de mundo interativos e motores de jogos neurais, visa gerar fluxos de vídeo longos de alta qualidade, baixa latência e coerência temporal. No entanto, a maioria dos trabalhos existentes sofre com o acúmulo severo de erros, que frequentemente degrada significativamente os vídeos gerados ao longo de horizontes temporais longos. Projetamos o Rolling Forcing, uma nova técnica de geração de vídeos que permite a transmissão de vídeos longos com acúmulo mínimo de erros. O Rolling Forcing apresenta três novos designs. Primeiro, em vez de amostrar iterativamente quadros individuais, o que acelera a propagação de erros, projetamos um esquema de remoção de ruído conjunto que remove ruído de múltiplos quadros simultaneamente com níveis de ruído progressivamente crescentes. Esse design relaxa a causalidade estrita entre quadros adjacentes, suprimindo efetivamente o crescimento de erros. Segundo, introduzimos o mecanismo de "attention sink" na tarefa de geração de vídeos em streaming de longo horizonte, o que permite que o modelo mantenha estados de valor-chave dos quadros iniciais como uma âncora de contexto global, melhorando assim a consistência global de longo prazo. Terceiro, projetamos um algoritmo de treinamento eficiente que permite a destilação em poucos passos em janelas de remoção de ruído amplamente estendidas. Esse algoritmo opera em janelas não sobrepostas e mitiga o viés de exposição condicionado a histórias autogeradas. Experimentos extensivos mostram que o Rolling Forcing permite a geração em tempo real de vídeos de vários minutos em uma única GPU, com redução substancial no acúmulo de erros.
English
Streaming video generation, as one fundamental component in interactive world models and neural game engines, aims to generate high-quality, low-latency, and temporally coherent long video streams. However, most existing work suffers from severe error accumulation that often significantly degrades the generated stream videos over long horizons. We design Rolling Forcing, a novel video generation technique that enables streaming long videos with minimal error accumulation. Rolling Forcing comes with three novel designs. First, instead of iteratively sampling individual frames, which accelerates error propagation, we design a joint denoising scheme that simultaneously denoises multiple frames with progressively increasing noise levels. This design relaxes the strict causality across adjacent frames, effectively suppressing error growth. Second, we introduce the attention sink mechanism into the long-horizon stream video generation task, which allows the model to keep key value states of initial frames as a global context anchor and thereby enhances long-term global consistency. Third, we design an efficient training algorithm that enables few-step distillation over largely extended denoising windows. This algorithm operates on non-overlapping windows and mitigates exposure bias conditioned on self-generated histories. Extensive experiments show that Rolling Forcing enables real-time streaming generation of multi-minute videos on a single GPU, with substantially reduced error accumulation.
PDF233September 30, 2025