LongLive-RAG: Общий поисково-дополненный фреймворк для генерации длинных видео

Аннотация

Авторегрессивная (AR) диффузия видео позволяет генерировать последовательности переменной длины, однако долгосрочная генерация часто страдает от накопленных ошибок и дрейфа идентичности. Для повышения эффективности существующие методы обычно используют внимание со скользящим окном на этапе генерации. Это создает необратимую траекторию генерации: как только активное окно накапливает ошибки внешнего вида, последующие поколения могут опираться только на эту деградировавшую траекторию и отклоняются еще сильнее. Мы решаем эту проблему, формулируя генерацию длинных видео как задачу генерации с дополнением через поиск (RAG). Вместо того чтобы полагаться исключительно на последнее окно, мы рассматриваем ранее сгенерированные латентные представления как динамическую, доступную для поиска историю. Мы предлагаем LongLive-RAG — общую структуру поиска для AR-генерации видео. На каждом новом блоке LongLive-RAG использует эмбеддинг запроса для извлечения релевантных исторических латентных представлений. Этот легковесный этап поиска добавляет лишь небольшие накладные расходы по сравнению с генерацией и позволяет генератору опираться на нелокальный контекст вместо только лишь последнего окна. Чтобы сделать поиск более дискриминативным, мы вводим потерю временной дельты окна (Window Temporal Delta Loss), которая подавляет избыточную локальную схожесть и побуждает эмбеддинги захватывать значимые временные изменения. Вместе эти компоненты помогают уменьшить накопление ошибок, вызванное вниманием со скользящим окном. Эксперименты с несколькими AR-основами и длинами генерации показывают улучшение качества длинных видео и наилучший средний рейтинг VBench-Long. Насколько нам известно, среди методов открытой AR-генерации длинных видео LongLive-RAG является первым, кто формулирует собственную сгенерированную историю латентных представлений как адресуемую по содержимому память поиска. Код доступен по адресу https://github.com/qixinhu11/LongLive-RAG.

English

Autoregressive (AR) video diffusion enables variable-length synthesis, but long-horizon generation often suffers from accumulated errors and identity drift. For efficiency, existing methods commonly adopt sliding-window attention during generation. This creates an irreversible generation trajectory: once the active window accumulates appearance errors, subsequent generations can only condition on this degraded trajectory and drift further away. We address this limitation by formulating long video generation as a retrieval-augmented generation (RAG) problem. Rather than relying solely on the recent window, we treat previously generated latents as a dynamic, searchable history. We propose LongLive-RAG, a general retrieval framework for AR video generation. At each new block, LongLive-RAG uses a query embedding to retrieve relevant historical latents. This lightweight retrieval step adds only a small overhead relative to generation and lets the generator condition on non-local context instead of only the recent window. To make retrieval more discriminative, we introduce the Window Temporal Delta Loss that suppresses redundant local similarity and encourages embeddings to capture meaningful temporal changes. Together, these components help reduce error accumulation caused by sliding-window attention. Experiments across multiple AR backbones and generation lengths show improved long-video quality and the best average VBench-Long rank. To our knowledge, among open-ended AR long video generation methods, LongLive-RAG is the first to formulate self-generated latent history as content-addressable retrieval memory. Code is available at https://github.com/qixinhu11/LongLive-RAG.