CUE-R: Voorbij het definitieve antwoord bij retrieval-augmented generation

Samenvatting

Naarmate taalmodellen verschuiven van het genereren van antwoorden in één stap naar meerstaps redeneren waarbij bewijs wordt opgehaald en verwerkt tijdens de inferentie, wordt de evaluatie van de rol van individuele opgehaalde items belangrijker. Bestaande RAG-evaluatie richt zich doorgaans op de kwaliteit van het eindantwoord, de geloofwaardigheid van citaten of attributie op antwoordniveau, maar geen van deze richt zich direct op de op interventie gebaseerde, utiliteitsvisie per bewijsitem die wij hier bestuderen. Wij introduceren CUE-R, een lichtgewicht, op interventie gebaseerd raamwerk voor het meten van de operationele utility per bewijsitem in single-shot RAG met behulp van oppervlakkige, observeerbare sporen van retrieval-gebruik. CUE-R verstoort individuele bewijsitems via REMOVE-, REPLACE- en DUPLICATE-operatoren, en meet vervolgens veranderingen langs drie utility-assen (correctheid, op proxy's gebaseerde grondigheid, en fout in vertrouwen) plus een signaal voor spoor-divergentie. We schetsen ook een operationele taxonomie van bewijsrollen voor het interpreteren van interventieresultaten. Experimenten op HotpotQA en 2WikiMultihopQA met Qwen-3 8B en GPT-5.2 onthullen een consistent patroon: REMOVE en REPLACE schaden de correctheid en grondigheid aanzienlijk en veroorzaken grote verschuivingen in de sporen, terwijl DUPLICATE vaak antwoord-redundant is maar niet volledig gedragsneutraal. Een zero-retrieval controle bevestigt dat deze effecten voortkomen uit de degradatie van betekenisvolle retrieval. Een two-support ablatie toont verder aan dat multi-hop bewijsitems niet-additief kunnen interacteren: het verwijderen van beide ondersteuningen schaadt de prestaties veel meer dan het verwijderen van slechts één. Onze resultaten suggereren dat evaluatie uitsluitend op het antwoord belangrijke bewijseffecten mist, en dat utility-analyse op basis van interventies een praktische aanvulling is voor RAG-evaluatie.

English

As language models shift from single-shot answer generation toward multi-step reasoning that retrieves and consumes evidence mid-inference, evaluating the role of individual retrieved items becomes more important. Existing RAG evaluation typically targets final-answer quality, citation faithfulness, or answer-level attribution, but none of these directly targets the intervention-based, per-evidence-item utility view we study here. We introduce CUE-R, a lightweight intervention-based framework for measuring per-evidence-item operational utility in single-shot RAG using shallow observable retrieval-use traces. CUE-R perturbs individual evidence items via REMOVE, REPLACE, and DUPLICATE operators, then measures changes along three utility axes (correctness, proxy-based grounding faithfulness, and confidence error) plus a trace-divergence signal. We also outline an operational evidence-role taxonomy for interpreting intervention outcomes. Experiments on HotpotQA and 2WikiMultihopQA with Qwen-3 8B and GPT-5.2 reveal a consistent pattern: REMOVE and REPLACE substantially harm correctness and grounding while producing large trace shifts, whereas DUPLICATE is often answer-redundant yet not fully behaviorally neutral. A zero-retrieval control confirms that these effects arise from degradation of meaningful retrieval. A two-support ablation further shows that multi-hop evidence items can interact non-additively: removing both supports harms performance far more than either single removal. Our results suggest that answer-only evaluation misses important evidence effects and that intervention-based utility analysis is a practical complement for RAG evaluation.

CUE-R: Voorbij het definitieve antwoord bij retrieval-augmented generation

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Samenvatting

Support