Repenser le RAG dans les vidéos longues : que récupérer et comment l’utiliser ?

Résumé

La génération augmentée par récupération dépasse désormais le texte pour s'appliquer à de longues vidéos égocentriques, où les systèmes doivent sélectionner des segments pertinents pour la requête à travers de multiples modalités et granularités temporelles. Cependant, les progrès en VideoRAG sont limités par deux lacunes : les référentiels existants autorisent des requêtes auxquelles il est possible de répondre sans la vidéo, masquant ainsi les erreurs de récupération, et les méthodes antérieures appliquent une unique configuration modalité-granularité par requête, ignorant la variabilité au niveau des segments. Nous comblons ces deux lacunes en introduisant V-RAGBench, un référentiel de triplets ⟨requête, segment de preuve, réponse⟩ qui permet une évaluation fidèle et découplée de la récupération et de la génération, ainsi que CARVE, une méthode simple qui exécute des récupérateurs parallèles sur différentes configurations et emploie un reclassement adaptatif au segment pour identifier la configuration gagnante pour chaque segment. Chaque segment entre ensuite dans le générateur sous sa configuration gagnante sélectionnée lors de la récupération, produisant une forme de preuve entrelacée où la décision au niveau du segment se propage à travers les deux étapes. CARVE surpasse huit référentiels VideoRAG récents, les segments fournis au générateur entrelaçant plusieurs configurations plutôt que d'en partager une seule, un comportement inaccessible aux méthodes basées sur les requêtes.

English

Retrieval-augmented generation is moving beyond text into long, egocentric video, where systems must select query-relevant chunks across multiple modalities and temporal granularities. Yet progress in VideoRAG is limited by two gaps: existing benchmarks allow queries to be answered without the video, obscuring retrieval errors, and prior methods apply a single modality-granularity configuration per query, ignoring chunk-level variability. We address both by introducing V-RAGBench, a benchmark of langlequery, evidence chunk, answerrangle triplets that enables faithful, decoupled evaluation of retrieval and generation, and CARVE, a simple method that runs parallel retrievers across configurations and employs chunk-adaptive reranking to identify the winning configuration for each chunk. Each chunk then enters the generator under its winning configuration selected during retrieval, yielding an interleaved evidence form where the chunk-level decision propagates across both stages. CARVE outperforms eight recent VideoRAG baselines, with the chunks supplied to the generator interleaving multiple configurations rather than sharing a single one, a behavior unattainable by query-level methods.