LoL: Länger als Länger – Skalierung der Videogenerierung auf Stundenlänge
LoL: Longer than Longer, Scaling Video Generation to Hour
January 23, 2026
papers.authors: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
papers.abstract
Aktuelle Forschung zur Erzeugung langer Videos hat sich von bidirektionalen zu autoregressiven Modellen verschoben, doch diese Methoden leiden häufig unter Fehlerakkumulation und einem Verlust der langfristigen Kohärenz. Obwohl sogenannte Attention-Sink-Frames eingeführt wurden, um diesen Leistungsabfall abzumildern, lösen sie oft einen kritischen Fehlermodus aus, den wir als Sink-Collapse bezeichnen: Der generierte Inhalt kehrt wiederholt zum Sink-Frame zurück, was zu abrupten Szenenresets und zyklischen Bewegungsmustern führt. Unsere Analyse zeigt, dass Sink-Collapse aus einem inherenten Konflikt zwischen der periodischen Struktur von Rotary Position Embedding (RoPE) und den in aktuellen generativen Modellen verbreiteten Multi-Head-Attention-Mechanismen entsteht. Um dieses Problem zu lösen, schlagen wir einen leichtgewichtigen, trainingsfreien Ansatz vor, der dieses Verhalten effektiv unterdrückt, indem Multi-Head-RoPE-Jitter eingeführt wird, der die Aufmerksamkeits-Homogenisierung zwischen den Heads aufbricht und den Kollaps über lange Zeithorizonte mildert. Umfangreiche Experimente zeigen, dass unsere Methode Sink-Collapse erfolgreich abschwächt, ohne die Generierungsqualität zu beeinträchtigen. Nach unserem Wissen erreicht diese Arbeit die erste Demonstration von Echtzeit-, Streaming- und unendlich langer Videogenerierung mit minimalem Qualitätsverlust. Als Beleg dieser Robustheit generieren wir durchgehende Videos mit einer Länge von bis zu 12 Stunden, was nach unserem Kenntnisstand zu den längsten öffentlich demonstrierten Ergebnissen in der Streaming-Videogenerierung zählt.
English
Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.