ChatPaper.aiChatPaper

LoL : Plus long que long, mise à l'échelle de la génération vidéo à l'heure

LoL: Longer than Longer, Scaling Video Generation to Hour

January 23, 2026
papers.authors: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI

papers.abstract

Les recherches récentes sur la génération de vidéos longues sont passées des modèles bidirectionnels aux modèles autorégressifs, mais ces méthodes souffrent généralement d'une accumulation d'erreurs et d'une perte de cohérence à long terme. Bien que des images de référence (attention sink frames) aient été introduites pour atténuer cette dégradation des performances, elles provoquent souvent un mode d'échec critique que nous nommons effondrement vers le sink : le contenu généré revient répétitivement à l'image de référence, entraînant des réinitialisations brutales de scène et des motifs de mouvement cycliques. Notre analyse révèle que cet effondrement provient d'un conflit intrinsèque entre la structure périodique de l'encodage positionnel rotatif (RoPE) et les mécanismes d'attention multi-têtes répandus dans les modèles génératifs actuels. Pour y remédier, nous proposons une approche légère, sans entraînement, qui supprime efficacement ce comportement en introduisant une perturbation RoPE multi-têtes qui brise l'homogénéisation de l'attention inter-têtes et atténue l'effondrement à long terme. Des expériences approfondies montrent que notre méthode atténue avec succès l'effondrement tout en préservant la qualité de génération. À notre connaissance, ce travail constitue la première démonstration de génération vidéo en temps réel, en flux continu et de longueur infinie avec une dégradation qualitative minime. Pour illustrer cette robustesse, nous avons généré des vidéos continues d'une durée allant jusqu'à 12 heures, ce qui représente, à notre connaissance, l'un des résultats les plus longs démontrés publiquement en génération vidéo en flux continu.
English
Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.
PDF152January 31, 2026