RAG in langen Videos neu überdenken: Was abrufen und wie verwenden?

Zusammenfassung

Die retrieval-gestützte Generierung bewegt sich über Texte hinaus in lange, egozentrische Videos, in denen Systeme anfrage-relevante Ausschnitte über mehrere Modalitäten und zeitliche Granularitäten hinweg auswählen müssen. Der Fortschritt im Bereich VideoRAG wird jedoch durch zwei Lücken eingeschränkt: Vorhandene Benchmarks erlauben es, Anfragen ohne das Video zu beantworten, was Retrieval-Fehler verschleiert, und bisherige Methoden wenden pro Anfrage eine einzige Modalitäts-Granularitäts-Konfiguration an, wobei sie die Variabilität auf Chunk-Ebene ignorieren. Wir adressieren beide Lücken durch die Einführung von V-RAGBench, einem Benchmark mit ⟨Anfrage, Evidenz-Chunk, Antwort⟩-Triple, das eine getreue, entkoppelte Bewertung von Retrieval und Generierung ermöglicht, und CARVE, einer einfachen Methode, die parallele Retriever über Konfigurationen hinweg ausführt und ein chunk-adaptives Re-Ranking einsetzt, um für jeden Chunk die gewinnende Konfiguration zu identifizieren. Jeder Chunk gelangt dann unter seiner während des Retrievals ausgewählten Siegerkonfiguration in den Generator, was eine verschachtelte Evidenzform ergibt, bei der die Entscheidung auf Chunk-Ebene über beide Stufen propagiert wird. CARVE übertrifft acht aktuelle VideoRAG-Baselines, wobei die dem Generator zugeführten Chunks mehrere Konfigurationen verschachteln, anstatt eine einzige gemeinsam zu nutzen – ein Verhalten, das mit Methoden auf Anfrageebene nicht erreichbar ist.

English

Retrieval-augmented generation is moving beyond text into long, egocentric video, where systems must select query-relevant chunks across multiple modalities and temporal granularities. Yet progress in VideoRAG is limited by two gaps: existing benchmarks allow queries to be answered without the video, obscuring retrieval errors, and prior methods apply a single modality-granularity configuration per query, ignoring chunk-level variability. We address both by introducing V-RAGBench, a benchmark of langlequery, evidence chunk, answerrangle triplets that enables faithful, decoupled evaluation of retrieval and generation, and CARVE, a simple method that runs parallel retrievers across configurations and employs chunk-adaptive reranking to identify the winning configuration for each chunk. Each chunk then enters the generator under its winning configuration selected during retrieval, yielding an interleaved evidence form where the chunk-level decision propagates across both stages. CARVE outperforms eight recent VideoRAG baselines, with the chunks supplied to the generator interleaving multiple configurations rather than sharing a single one, a behavior unattainable by query-level methods.