Переосмысление RAG в длинных видео: что извлекать и как использовать?

Аннотация

Генерация с дополнением извлечением выходит за рамки текста и переходит к длинному эгоцентрическому видео, где системы должны выбирать релевантные запросу фрагменты в различных модальностях и временных разрешениях. Однако прогресс в VideoRAG ограничен двумя пробелами: существующие бенчмарки позволяют отвечать на запросы без видео, скрывая ошибки извлечения, а предыдущие методы применяют единую конфигурацию модальности-разрешения для каждого запроса, игнорируя изменчивость на уровне фрагментов. Мы устраняем оба пробела, представляя V-RAGBench — бенчмарк троек «запрос, фрагмент свидетельства, ответ», обеспечивающий достоверную раздельную оценку извлечения и генерации, и CARVE — простой метод, запускающий параллельные извлекатели в различных конфигурациях и использующий адаптивное к фрагментам переранжирование для определения выигрышной конфигурации для каждого фрагмента. Затем каждый фрагмент поступает в генератор в своей выигрышной конфигурации, выбранной во время извлечения, что дает перемежающуюся форму свидетельства, где решение на уровне фрагментов распространяется на оба этапа. CARVE превосходит восемь недавних базовых методов VideoRAG, причем фрагменты, подаваемые в генератор, чередуют несколько конфигураций, а не используют единую — поведение, недостижимое для методов на уровне запросов.

English

Retrieval-augmented generation is moving beyond text into long, egocentric video, where systems must select query-relevant chunks across multiple modalities and temporal granularities. Yet progress in VideoRAG is limited by two gaps: existing benchmarks allow queries to be answered without the video, obscuring retrieval errors, and prior methods apply a single modality-granularity configuration per query, ignoring chunk-level variability. We address both by introducing V-RAGBench, a benchmark of langlequery, evidence chunk, answerrangle triplets that enables faithful, decoupled evaluation of retrieval and generation, and CARVE, a simple method that runs parallel retrievers across configurations and employs chunk-adaptive reranking to identify the winning configuration for each chunk. Each chunk then enters the generator under its winning configuration selected during retrieval, yielding an interleaved evidence form where the chunk-level decision propagates across both stages. CARVE outperforms eight recent VideoRAG baselines, with the chunks supplied to the generator interleaving multiple configurations rather than sharing a single one, a behavior unattainable by query-level methods.