LoL: Langer dan Langer, het opschalen van videogeneratie naar uren

Samenvatting

Recent onderzoek naar de generatie van lange video's is verschoven van bidirectionele naar autoregressieve modellen, maar deze methoden kampen vaak met foutenaccumulatie en verlies van langetermijncoherentie. Hoewel aandachtssinkframes zijn geïntroduceerd om dit prestatieverval tegen te gaan, veroorzaken ze vaak een kritieke foutmodus die we sink-collapse noemen: de gegenereerde inhoud keert herhaaldelijk terug naar het sinkframe, wat leidt tot abrupte scèneresets en cyclische bewegingspatronen. Onze analyse toont aan dat sink-collapse voortkomt uit een inherent conflict tussen de periodieke structuur van Rotary Position Embedding (RoPE) en de multi-head aandachtmechanismen die veel voorkomen in huidige generatieve modellen. Om dit op te lossen, stellen we een lichtgewicht, trainingsvrije aanpak voor die dit gedrag effectief onderdrukt door multi-head RoPE-jitter te introduceren, waardoor inter-head aandachtshomogenisatie wordt doorbroken en langetermijncollapse wordt verminderd. Uitgebreide experimenten tonen aan dat onze methode sink-collapse succesvol vermindert zonder de generatiekwaliteit aan te tasten. Voor zover wij weten, levert dit werk de eerste demonstratie van real-time, streaming en oneindig lange videogeneratie met minimale kwaliteitsafname. Ter illustratie van deze robuustheid genereren we continue video's tot 12 uur lang, wat naar onze kennis een van de langste publiek gedemonstreerde resultaten in streamingvideogeneratie is.

English

Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.

LoL: Langer dan Langer, het opschalen van videogeneratie naar uren

LoL: Longer than Longer, Scaling Video Generation to Hour

Samenvatting

Support