LoL: Mais Longo que o Longo, Escalonando a Geração de Vídeos para Horas

Resumo

Pesquisas recentes em geração de vídeos de longa duração migraram de modelos bidirecionais para abordagens autoregressivas, porém esses métodos frequentemente sofrem com acúmulo de erros e perda de coerência em longo prazo. Embora quadros de atenção fixa (attention sink frames) tenham sido introduzidos para mitigar essa degradação de desempenho, eles frequentemente induzem uma falha crítica que denominamos colapso de fixação (sink-collapse): o conteúdo gerado reverte repetidamente ao quadro de referência, resultando em reinícios abruptos de cena e padrões cíclicos de movimento. Nossa análise revela que o colapso de fixação origina-se de um conflito inerente entre a estrutura periódica do Rotary Position Embedding (RoPE) e os mecanismos de atenção multi-head predominantes nos modelos generativos atuais. Para resolver esse problema, propomos uma abordagem leve, livre de treinamento, que suprime efetivamente esse comportamento através da introdução de uma perturbação multi-head no RoPE (RoPE jitter), quebrando a homogeneização da atenção entre cabeças e mitigando o colapso em horizontes longos. Experimentos extensivos demonstram que nosso método alivia com sucesso o colapso de fixação enquanto preserva a qualidade da geração. Até onde sabemos, este trabalho alcança a primeira demonstração de geração de vídeo em tempo real, contínua e de duração infinita com mínima degradação de qualidade. Como ilustração dessa robustez, geramos vídeos contínuos de até 12 horas de duração, que, em nosso conhecimento, estão entre os resultados mais longos publicamente demonstrados em geração de vídeo contínuo.

English

Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.

LoL: Mais Longo que o Longo, Escalonando a Geração de Vídeos para Horas

LoL: Longer than Longer, Scaling Video Generation to Hour

Resumo

Support