LongLive-RAG: Ein allgemeines Retrieval-Augmented Framework für die Generierung langer Videos

Zusammenfassung

Autoregressive (AR) Videodiffusion ermöglicht die Synthese variabler Längen, doch die Generierung über lange Horizonte leidet häufig unter akkumulierten Fehlern und Identitätsdrift. Aus Effizienzgründen verwenden bestehende Methoden während der Generierung üblicherweise eine gleitende Fensteraufmerksamkeit (Sliding-Window-Attention). Dies erzeugt eine irreversible Generierungstrajektorie: Sobald das aktive Fenster Erscheinungsfehler akkumuliert, können nachfolgende Generierungen nur auf dieser degradierten Trajektorie konditionieren und noch weiter abweichen. Wir beheben diese Einschränkung, indem wir die lange Videogenerierung als ein retrievalgestütztes Generierungsproblem (RAG) formulieren. Anstatt uns ausschließlich auf das letzte Fenster zu stützen, behandeln wir zuvor generierte Latents als eine dynamische, durchsuchbare Historie. Wir schlagen LongLive-RAG vor, ein allgemeines Retrieval-Framework für die AR-Videogenerierung. Bei jedem neuen Block verwendet LongLive-RAG eine Abfrage-Einbettung (Query Embedding), um relevante historische Latents abzurufen. Dieser rechenleichte Retrieval-Schritt fügt nur einen geringen Overhead im Vergleich zur Generierung hinzu und ermöglicht es dem Generator, auf nicht-lokale Kontexte zu konditionieren, anstatt nur auf das letzte Fenster. Um das Retrieving diskriminativer zu gestalten, führen wir den Window Temporal Delta Loss ein, der redundante lokale Ähnlichkeiten unterdrückt und die Einbettungen dazu anregt, bedeutungsvolle zeitliche Veränderungen zu erfassen. Zusammen tragen diese Komponenten dazu bei, die durch die Sliding-Window-Attention verursachte Fehlerakkumulation zu reduzieren. Experimente mit mehreren AR-Backbones und Generierungslängen zeigen eine verbesserte Qualität langer Videos und den besten durchschnittlichen VBench-Long-Rang. Unseres Wissens nach ist LongLive-RAG die erste Methode unter den offenen AR-Langvideogenerierungsverfahren, die selbstgenerierte Latenz-Historien als inhaltsadressierbaren Retrieval-Speicher formuliert. Der Code ist verfügbar unter https://github.com/qixinhu11/LongLive-RAG.

English

Autoregressive (AR) video diffusion enables variable-length synthesis, but long-horizon generation often suffers from accumulated errors and identity drift. For efficiency, existing methods commonly adopt sliding-window attention during generation. This creates an irreversible generation trajectory: once the active window accumulates appearance errors, subsequent generations can only condition on this degraded trajectory and drift further away. We address this limitation by formulating long video generation as a retrieval-augmented generation (RAG) problem. Rather than relying solely on the recent window, we treat previously generated latents as a dynamic, searchable history. We propose LongLive-RAG, a general retrieval framework for AR video generation. At each new block, LongLive-RAG uses a query embedding to retrieve relevant historical latents. This lightweight retrieval step adds only a small overhead relative to generation and lets the generator condition on non-local context instead of only the recent window. To make retrieval more discriminative, we introduce the Window Temporal Delta Loss that suppresses redundant local similarity and encourages embeddings to capture meaningful temporal changes. Together, these components help reduce error accumulation caused by sliding-window attention. Experiments across multiple AR backbones and generation lengths show improved long-video quality and the best average VBench-Long rank. To our knowledge, among open-ended AR long video generation methods, LongLive-RAG is the first to formulate self-generated latent history as content-addressable retrieval memory. Code is available at https://github.com/qixinhu11/LongLive-RAG.