Repensando el RAG en videos largos: ¿qué recuperar y cómo usarlo?

Resumen

La generación aumentada por recuperación está avanzando más allá del texto hacia videos largos y egocéntricos, donde los sistemas deben seleccionar fragmentos relevantes para la consulta a través de múltiples modalidades y granularidades temporales. Sin embargo, el progreso en VideoRAG está limitado por dos brechas: los benchmarks existentes permiten que las consultas sean respondidas sin el video, ocultando errores de recuperación, y los métodos previos aplican una única configuración de modalidad-granularidad por consulta, ignorando la variabilidad a nivel de fragmento. Abordamos ambas limitaciones mediante la introducción de V-RAGBench, un benchmark de tripletes ⟨consulta, fragmento de evidencia, respuesta⟩ que permite una evaluación fiel y desacoplada de la recuperación y la generación, y CARVE, un método simple que ejecuta recuperadores en paralelo a través de configuraciones y emplea un reranking adaptativo por fragmento para identificar la configuración ganadora para cada fragmento. Cada fragmento ingresa entonces al generador bajo su configuración ganadora seleccionada durante la recuperación, produciendo una forma de evidencia entrelazada donde la decisión a nivel de fragmento se propaga a través de ambas etapas. CARVE supera a ocho líneas base recientes de VideoRAG, con los fragmentos suministrados al generador entrelazando múltiples configuraciones en lugar de compartir una única, un comportamiento inalcanzable por métodos a nivel de consulta.

English

Retrieval-augmented generation is moving beyond text into long, egocentric video, where systems must select query-relevant chunks across multiple modalities and temporal granularities. Yet progress in VideoRAG is limited by two gaps: existing benchmarks allow queries to be answered without the video, obscuring retrieval errors, and prior methods apply a single modality-granularity configuration per query, ignoring chunk-level variability. We address both by introducing V-RAGBench, a benchmark of langlequery, evidence chunk, answerrangle triplets that enables faithful, decoupled evaluation of retrieval and generation, and CARVE, a simple method that runs parallel retrievers across configurations and employs chunk-adaptive reranking to identify the winning configuration for each chunk. Each chunk then enters the generator under its winning configuration selected during retrieval, yielding an interleaved evidence form where the chunk-level decision propagates across both stages. CARVE outperforms eight recent VideoRAG baselines, with the chunks supplied to the generator interleaving multiple configurations rather than sharing a single one, a behavior unattainable by query-level methods.