LongLive-RAG: Uma Estrutura Geral Aumentada por Recuperação para Geração de Vídeos Longos

Resumo

A difusão de vídeo autorregressivo (AR) permite a síntese de duração variável, mas a geração de horizontes longos frequentemente sofre com erros acumulados e desvio de identidade. Para eficiência, métodos existentes comumente adotam atenção de janela deslizante durante a geração. Isso cria uma trajetória de geração irreversível: uma vez que a janela ativa acumula erros de aparência, as gerações subsequentes só podem condicionar-se a essa trajetória degradada e desviar-se ainda mais. Abordamos essa limitação formulando a geração de vídeos longos como um problema de geração aumentada por recuperação (RAG). Em vez de depender apenas da janela recente, tratamos os latentes gerados anteriormente como um histórico dinâmico e pesquisável. Propomos o LongLive-RAG, uma estrutura de recuperação geral para geração de vídeo AR. Em cada novo bloco, o LongLive-RAG usa uma incorporação de consulta para recuperar latentes históricos relevantes. Essa etapa leve de recuperação adiciona apenas uma pequena sobrecarga em relação à geração e permite que o gerador se condicione a contexto não local, em vez de apenas à janela recente. Para tornar a recuperação mais discriminativa, introduzimos a Perda de Delta Temporal da Janela, que suprime a similaridade local redundante e incentiva as incorporações a capturar mudanças temporais significativas. Juntos, esses componentes ajudam a reduzir o acúmulo de erros causado pela atenção de janela deslizante. Experimentos em múltiplos backbones AR e comprimentos de geração mostram melhoria na qualidade de vídeos longos e a melhor classificação média no VBench-Long. Até onde sabemos, entre os métodos abertos de geração de vídeo longo AR, o LongLive-RAG é o primeiro a formular o histórico latente autogerado como memória de recuperação endereçável por conteúdo. O código está disponível em https://github.com/qixinhu11/LongLive-RAG.

English

Autoregressive (AR) video diffusion enables variable-length synthesis, but long-horizon generation often suffers from accumulated errors and identity drift. For efficiency, existing methods commonly adopt sliding-window attention during generation. This creates an irreversible generation trajectory: once the active window accumulates appearance errors, subsequent generations can only condition on this degraded trajectory and drift further away. We address this limitation by formulating long video generation as a retrieval-augmented generation (RAG) problem. Rather than relying solely on the recent window, we treat previously generated latents as a dynamic, searchable history. We propose LongLive-RAG, a general retrieval framework for AR video generation. At each new block, LongLive-RAG uses a query embedding to retrieve relevant historical latents. This lightweight retrieval step adds only a small overhead relative to generation and lets the generator condition on non-local context instead of only the recent window. To make retrieval more discriminative, we introduce the Window Temporal Delta Loss that suppresses redundant local similarity and encourages embeddings to capture meaningful temporal changes. Together, these components help reduce error accumulation caused by sliding-window attention. Experiments across multiple AR backbones and generation lengths show improved long-video quality and the best average VBench-Long rank. To our knowledge, among open-ended AR long video generation methods, LongLive-RAG is the first to formulate self-generated latent history as content-addressable retrieval memory. Code is available at https://github.com/qixinhu11/LongLive-RAG.