ChatPaper.aiChatPaper

LongLive-RAG : Un cadre général à récupération augmentée pour la génération de vidéos longues

LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

June 1, 2026
Auteurs: Qixin Hu, Shuai Yang, Wei Huang, Song Han, Yukang Chen
cs.AI

Résumé

La diffusion vidéo autorégressive (AR) permet une synthèse de longueur variable, mais la génération à long terme souffre souvent d'erreurs accumulées et de dérive d'identité. Pour des raisons d'efficacité, les méthodes existantes adoptent généralement une attention par fenêtre glissante lors de la génération. Cela crée une trajectoire de génération irréversible : une fois que la fenêtre active accumule des erreurs d'apparence, les générations suivantes ne peuvent que se conditionner sur cette trajectoire dégradée et dériver davantage. Nous abordons cette limitation en formuliant la génération de longues vidéos comme un problème de génération augmentée par récupération (RAG). Plutôt que de se fier uniquement à la fenêtre récente, nous traitons les latents générés précédemment comme un historique dynamique et interrogeable. Nous proposons LongLive-RAG, un cadre de récupération général pour la génération vidéo AR. À chaque nouveau bloc, LongLive-RAG utilise un embedding de requête pour récupérer les latents historiques pertinents. Cette étape de récupération légère n'ajoute qu'un faible surcoût par rapport à la génération et permet au générateur de se conditionner sur un contexte non local plutôt que sur la seule fenêtre récente. Pour rendre la récupération plus discriminante, nous introduisons la perte delta temporelle de fenêtre (Window Temporal Delta Loss), qui supprime la similarité locale redondante et encourage les embeddings à capturer des changements temporels significatifs. Ensemble, ces composants aident à réduire l'accumulation d'erreurs causée par l'attention par fenêtre glissante. Les expériences sur plusieurs architectures AR et longueurs de génération montrent une amélioration de la qualité des vidéos longues et le meilleur classement VBench-Long moyen. À notre connaissance, parmi les méthodes de génération de vidéos longues AR en boucle ouverte, LongLive-RAG est la première à formuler l'historique de latents auto-générés comme une mémoire de récupération adressable par contenu. Le code est disponible à l'adresse https://github.com/qixinhu11/LongLive-RAG.
English
Autoregressive (AR) video diffusion enables variable-length synthesis, but long-horizon generation often suffers from accumulated errors and identity drift. For efficiency, existing methods commonly adopt sliding-window attention during generation. This creates an irreversible generation trajectory: once the active window accumulates appearance errors, subsequent generations can only condition on this degraded trajectory and drift further away. We address this limitation by formulating long video generation as a retrieval-augmented generation (RAG) problem. Rather than relying solely on the recent window, we treat previously generated latents as a dynamic, searchable history. We propose LongLive-RAG, a general retrieval framework for AR video generation. At each new block, LongLive-RAG uses a query embedding to retrieve relevant historical latents. This lightweight retrieval step adds only a small overhead relative to generation and lets the generator condition on non-local context instead of only the recent window. To make retrieval more discriminative, we introduce the Window Temporal Delta Loss that suppresses redundant local similarity and encourages embeddings to capture meaningful temporal changes. Together, these components help reduce error accumulation caused by sliding-window attention. Experiments across multiple AR backbones and generation lengths show improved long-video quality and the best average VBench-Long rank. To our knowledge, among open-ended AR long video generation methods, LongLive-RAG is the first to formulate self-generated latent history as content-addressable retrieval memory. Code is available at https://github.com/qixinhu11/LongLive-RAG.