Repensando o RAG em Vídeos Longos: O que Recuperar e Como Usá-lo?

Resumo

A geração aumentada por recuperação está se movendo além do texto para vídeos longos e egocêntricos, onde os sistemas devem selecionar trechos relevantes à consulta em múltiplas modalidades e granularidades temporais. No entanto, o progresso no VideoRAG é limitado por duas lacunas: os benchmarks existentes permitem que as consultas sejam respondidas sem o vídeo, ocultando erros de recuperação, e métodos anteriores aplicam uma única configuração de modalidade-granularidade por consulta, ignorando a variabilidade no nível do trecho. Abordamos ambas introduzindo o V-RAGBench, um benchmark de tripletos ⟨consulta, trecho de evidência, resposta⟩ que possibilita uma avaliação fiel e desacoplada da recuperação e da geração, e o CARVE, um método simples que executa recuperadores paralelos em diversas configurações e emprega reclassificação adaptativa por trecho para identificar a configuração vencedora para cada trecho. Cada trecho então entra no gerador sob sua configuração vencedora selecionada durante a recuperação, resultando em uma forma de evidência intercalada onde a decisão no nível do trecho se propaga por ambos os estágios. O CARVE supera oito linhas de base recentes do VideoRAG, com os trechos fornecidos ao gerador intercalando múltiplas configurações em vez de compartilhar uma única, um comportamento inatingível por métodos no nível da consulta.

English

Retrieval-augmented generation is moving beyond text into long, egocentric video, where systems must select query-relevant chunks across multiple modalities and temporal granularities. Yet progress in VideoRAG is limited by two gaps: existing benchmarks allow queries to be answered without the video, obscuring retrieval errors, and prior methods apply a single modality-granularity configuration per query, ignoring chunk-level variability. We address both by introducing V-RAGBench, a benchmark of langlequery, evidence chunk, answerrangle triplets that enables faithful, decoupled evaluation of retrieval and generation, and CARVE, a simple method that runs parallel retrievers across configurations and employs chunk-adaptive reranking to identify the winning configuration for each chunk. Each chunk then enters the generator under its winning configuration selected during retrieval, yielding an interleaved evidence form where the chunk-level decision propagates across both stages. CARVE outperforms eight recent VideoRAG baselines, with the chunks supplied to the generator interleaving multiple configurations rather than sharing a single one, a behavior unattainable by query-level methods.