LoL: Más largo que largo, escalando la generación de video a horas
LoL: Longer than Longer, Scaling Video Generation to Hour
January 23, 2026
Autores: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
Resumen
Las investigaciones recientes en generación de vídeos de larga duración han transitado de modelos bidireccionales a autoregresivos, aunque estos métodos suelen adolecer de acumulación de errores y pérdida de coherencia a largo plazo. Si bien se han introducido fotogramas de anclaje de atención para mitigar esta degradación del rendimiento, estos a menudo inducen un modo de fallo crítico que denominamos colapso por anclaje: el contenido generado revierte repetidamente al fotograma de anclaje, resultando en reinicios abruptos de escena y patrones de movimiento cíclicos. Nuestro análisis revela que el colapso por anclaje se origina en un conflicto inherente entre la estructura periódica del Codificador Posicional Rotatorio (RoPE) y los mecanismos de atención multi-cabezal prevalentes en los modelos generativos actuales. Para abordarlo, proponemos un enfoque ligero, sin necesidad de entrenamiento, que suprime efectivamente este comportamiento mediante la introducción de una variabilidad multi-cabezal en RoPE que rompe la homogeneización de la atención entre cabezales y mitiga el colapso en horizontes largos. Experimentos exhaustivos demuestran que nuestro método alivia exitosamente el colapso por anclaje mientras preserva la calidad de la generación. Hasta donde sabemos, este trabajo logra la primera demostración de generación de vídeo en tiempo real, continuo y de longitud infinita con mínima degradación de calidad. Como ilustración de esta robustez, generamos vídeos continuos de hasta 12 horas de duración, lo que, según nuestro conocimiento, se encuentra entre los resultados más extensos demostrados públicamente en generación de vídeo continuo.
English
Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.