LoL: Più lungo del lungo, scalare la generazione video fino a un'ora

Abstract

La ricerca recente sulla generazione di video di lunga durata si è spostata da modelli bidirezionali a modelli autoregressivi, tuttavia questi metodi soffrono comunemente di accumulo di errori e perdita di coerenza a lungo termine. Sebbene siano stati introdotti frame "attention sink" per mitigare questo decadimento delle prestazioni, essi spesso inducono una modalità di fallimento critica che definiamo "sink-collapse": il contenuto generato ritorna ripetutamente al frame sink, risultando in reset improvvisi della scena e pattern di movimento ciclici. La nostra analisi rivela che il sink-collapse origina da un conflitto intrinseco tra la struttura periodica del Rotary Position Embedding (RoPE) e i meccanismi di multi-head attention prevalenti nei modelli generativi attuali. Per affrontarlo, proponiamo un approccio leggero, che non richiede addestramento, sopprimendo efficacemente questo comportamento attraverso l'introduzione di un jitter multi-head per RoPE che rompe l'omogeneizzazione dell'attenzione tra le teste e mitiga il collasso su orizzonti lunghi. Esperimenti estensivi mostrano che il nostro metodo allevia con successo il sink-collapse preservando la qualità della generazione. Per quanto a nostra conoscenza, questo lavoro rappresenta la prima dimostrazione di generazione di video in tempo reale, in streaming e di lunghezza infinita con un decadimento minimo della qualità. A testimonianza di questa robustezza, abbiamo generato video continui fino a 12 ore di lunghezza, che, per nostra conoscenza, sono tra i risultati più lunghi mai dimostrati pubblicamente nella generazione di video in streaming.

English

Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.

LoL: Più lungo del lungo, scalare la generazione video fino a un'ora

LoL: Longer than Longer, Scaling Video Generation to Hour

Abstract

Support