RAG heroverwegen in lange video's: wat te retrieven en hoe te gebruiken?

Samenvatting

Retrieval-versterkte generatie beweegt zich voorbij tekst naar lange, egocentrische video's, waar systemen query-relevante chunks moeten selecteren over meerdere modaliteiten en temporele granulariteiten heen. De vooruitgang in VideoRAG wordt echter beperkt door twee hiaten: bestaande benchmarks maken het mogelijk om queries te beantwoorden zonder de video, waardoor retrievalfouten worden verhuld, en eerdere methoden passen per query een enkele modaliteit-granulariteitconfiguratie toe, waarbij chunkniveau-variabiliteit wordt genegeerd. Wij pakken beide aan door V-RAGBench te introduceren, een benchmark van 〈query, bewijschunk, antwoord〉-tripletten die een getrouwe, ontkoppelde evaluatie van retrieval en generatie mogelijk maakt, en CARVE, een eenvoudige methode die parallelle retrievers over configuraties heen uitvoert en chunk-adaptieve herrangschikking toepast om de winnende configuratie voor elke chunk te identificeren. Elke chunk komt vervolgens in de generator terecht onder zijn tijdens de retrieval geselecteerde winnende configuratie, wat resulteert in een door elkaar gehusselde bewijsvorm waarbij de chunkniveau-beslissing door beide fasen heen wordt doorgegeven. CARVE presteert beter dan acht recente VideoRAG-baselines, waarbij de aan de generator geleverde chunks meerdere configuraties door elkaar husselen in plaats van een enkele te delen, een gedrag dat onbereikbaar is voor queryniveau-methoden.

English

Retrieval-augmented generation is moving beyond text into long, egocentric video, where systems must select query-relevant chunks across multiple modalities and temporal granularities. Yet progress in VideoRAG is limited by two gaps: existing benchmarks allow queries to be answered without the video, obscuring retrieval errors, and prior methods apply a single modality-granularity configuration per query, ignoring chunk-level variability. We address both by introducing V-RAGBench, a benchmark of langlequery, evidence chunk, answerrangle triplets that enables faithful, decoupled evaluation of retrieval and generation, and CARVE, a simple method that runs parallel retrievers across configurations and employs chunk-adaptive reranking to identify the winning configuration for each chunk. Each chunk then enters the generator under its winning configuration selected during retrieval, yielding an interleaved evidence form where the chunk-level decision propagates across both stages. CARVE outperforms eight recent VideoRAG baselines, with the chunks supplied to the generator interleaving multiple configurations rather than sharing a single one, a behavior unattainable by query-level methods.