LongLive-RAG: Un Marco General de Generación Aumentada por Recuperación para la Generación de Videos Largos

Resumen

La difusión de video autorregresiva (AR) permite la síntesis de longitud variable, pero la generación a largo plazo suele sufrir errores acumulados y deriva de identidad. Por eficiencia, los métodos existentes adoptan comúnmente la atención de ventana deslizante durante la generación. Esto crea una trayectoria de generación irreversible: una vez que la ventana activa acumula errores de apariencia, las generaciones posteriores solo pueden condicionarse a esta trayectoria degradada y desviarse aún más. Abordamos esta limitación formulando la generación de videos largos como un problema de generación aumentada por recuperación (RAG). En lugar de depender únicamente de la ventana reciente, tratamos los latentes generados previamente como un historial dinámico y recuperable. Proponemos LongLive-RAG, un marco de recuperación general para la generación de videos AR. En cada nuevo bloque, LongLive-RAG utiliza un embedding de consulta para recuperar latentes históricos relevantes. Este paso de recuperación ligero añade solo una pequeña sobrecarga en relación con la generación y permite que el generador se condicione en contexto no local en lugar de solo la ventana reciente. Para hacer la recuperación más discriminativa, introducimos la Pérdida Delta Temporal de Ventana que suprime la similitud local redundante y alienta a los embeddings a capturar cambios temporales significativos. En conjunto, estos componentes ayudan a reducir la acumulación de errores causada por la atención de ventana deslizante. Los experimentos con múltiples backbones AR y longitudes de generación muestran una mejora en la calidad del video largo y el mejor rango promedio en VBench-Long. Hasta donde sabemos, entre los métodos de generación de video largo AR de final abierto, LongLive-RAG es el primero en formular el historial latente autogenerado como memoria de recuperación direccionable por contenido. El código está disponible en https://github.com/qixinhu11/LongLive-RAG.

English

Autoregressive (AR) video diffusion enables variable-length synthesis, but long-horizon generation often suffers from accumulated errors and identity drift. For efficiency, existing methods commonly adopt sliding-window attention during generation. This creates an irreversible generation trajectory: once the active window accumulates appearance errors, subsequent generations can only condition on this degraded trajectory and drift further away. We address this limitation by formulating long video generation as a retrieval-augmented generation (RAG) problem. Rather than relying solely on the recent window, we treat previously generated latents as a dynamic, searchable history. We propose LongLive-RAG, a general retrieval framework for AR video generation. At each new block, LongLive-RAG uses a query embedding to retrieve relevant historical latents. This lightweight retrieval step adds only a small overhead relative to generation and lets the generator condition on non-local context instead of only the recent window. To make retrieval more discriminative, we introduce the Window Temporal Delta Loss that suppresses redundant local similarity and encourages embeddings to capture meaningful temporal changes. Together, these components help reduce error accumulation caused by sliding-window attention. Experiments across multiple AR backbones and generation lengths show improved long-video quality and the best average VBench-Long rank. To our knowledge, among open-ended AR long video generation methods, LongLive-RAG is the first to formulate self-generated latent history as content-addressable retrieval memory. Code is available at https://github.com/qixinhu11/LongLive-RAG.