LongLive-RAG: Een algemeen retrieval-augmented framework voor lange videogeneratie

Samenvatting

Autoregressieve (AR) videodiffusie maakt synthese van variabele lengte mogelijk, maar generatie over lange horizon lijdt vaak onder opgestapelde fouten en identiteitsdrift. Omwille van de efficiëntie passen bestaande methoden tijdens de generatie doorgaans een schuifvenster-aandachtsmechanisme toe. Dit creëert een onomkeerbaar generatietraject: zodra het actieve venster verschijningsfouten accumuleert, kan volgende generatie alleen op dit gedegradeerde traject voortbouwen en verder afdrijven. We pakken deze beperking aan door lange videogeneratie te formuleren als een retrieval-augmented generation (RAG)-probleem. In plaats van uitsluitend op het recente venster te vertrouwen, behandelen we eerder gegenereerde latenten als een dynamische, doorzoekbare geschiedenis. We stellen LongLive-RAG voor, een algemeen retrievalraamwerk voor AR-videogeneratie. Bij elk nieuw blok gebruikt LongLive-RAG een query-embedding om relevante historische latenten op te halen. Deze lichtgewicht retrievalslag voegt slechts een kleine overhead toe ten opzichte van de generatie en stelt de generator in staat om te conditioneren op niet-lokale context in plaats van alleen op het recente venster. Om retrieval beter onderscheidend te maken, introduceren we de Window Temporal Delta Loss, die redundante lokale gelijkenis onderdrukt en aanmoedigt dat embeddings betekenisvolle temporele veranderingen vastleggen. Samen helpen deze componenten de foutenaccumulatie door schuifvenster-aandacht te verminderen. Experimenten met meerdere AR-backbones en generatielengtes tonen een verbeterde kwaliteit van lange video's en de beste gemiddelde VBench-Long-rang. Voor zover wij weten, is LongLive-RAG onder de open-ended AR lange videogeneratiemethoden de eerste die zelf gegenereerde latentengeschiedenis formuleert als inhoudsadresseerbaar ophaalgeheugen. Code is beschikbaar op https://github.com/qixinhu11/LongLive-RAG.

English

Autoregressive (AR) video diffusion enables variable-length synthesis, but long-horizon generation often suffers from accumulated errors and identity drift. For efficiency, existing methods commonly adopt sliding-window attention during generation. This creates an irreversible generation trajectory: once the active window accumulates appearance errors, subsequent generations can only condition on this degraded trajectory and drift further away. We address this limitation by formulating long video generation as a retrieval-augmented generation (RAG) problem. Rather than relying solely on the recent window, we treat previously generated latents as a dynamic, searchable history. We propose LongLive-RAG, a general retrieval framework for AR video generation. At each new block, LongLive-RAG uses a query embedding to retrieve relevant historical latents. This lightweight retrieval step adds only a small overhead relative to generation and lets the generator condition on non-local context instead of only the recent window. To make retrieval more discriminative, we introduce the Window Temporal Delta Loss that suppresses redundant local similarity and encourages embeddings to capture meaningful temporal changes. Together, these components help reduce error accumulation caused by sliding-window attention. Experiments across multiple AR backbones and generation lengths show improved long-video quality and the best average VBench-Long rank. To our knowledge, among open-ended AR long video generation methods, LongLive-RAG is the first to formulate self-generated latent history as content-addressable retrieval memory. Code is available at https://github.com/qixinhu11/LongLive-RAG.