CUE-R: Oltre la risposta finale nella generazione aumentata tramite recupero informazioni

Abstract

Man mano che i modelli linguistici evolvono dalla generazione di risposte "single-shot" verso ragionamenti multi-step che recuperano e consumano evidenze durante l'inferenza, la valutazione del ruolo dei singoli elementi recuperati diventa più importante. Le valutazioni RAG esistenti si concentrano tipicamente sulla qualità della risposta finale, sulla fedeltà delle citazioni o sull'attribuzione a livello di risposta, ma nessuna di queste affronta direttamente la prospettiva basata su interventi e sull'utilità per singola evidenza che studiamo qui. Introduciamo CUE-R, un framework leggero basato su interventi per misurare l'utilità operativa per singola evidenza in RAG single-shot utilizzando tracce osservabili e superficiali di utilizzo del retrieval. CUE-R perturba i singoli elementi di evidenza tramite operatori di RIMOZIONE, SOSTITUZIONE e DUPLICAZIONE, quindi misura i cambiamenti lungo tre assi di utilità (correttezza, fedeltà del grounding basata su proxy ed errore di confidenza) più un segnale di divergenza delle tracce. Delineiamo inoltre una tassonomia operativa dei ruoli delle evidenze per interpretare i risultati degli interventi. Esperimenti su HotpotQA e 2WikiMultihopQA con Qwen-3 8B e GPT-5.2 rivelano uno schema coerente: RIMOZIONE e SOSTITUZIONE compromettono sostanzialmente correttezza e grounding producendo al contempo grandi spostamenti nelle tracce, mentre la DUPLICAZIONE è spesso ridondante per la risposta ma non completamente neutra dal punto di vista comportamentale. Un controllo a retrieval zero conferma che questi effetti derivano dal degrado di un retrieval significativo. Un'ablazione a due supporti mostra inoltre che gli elementi di evidenza multi-hop possono interagire in modo non additivo: rimuovere entrambi i supporti danneggia le prestazioni molto più della rimozione singola. I nostri risultati suggeriscono che la valutazione basata solo sulla risposta trascura effetti importanti delle evidenze e che l'analisi di utilità basata su interventi è un complemento pratico per la valutazione RAG.

English

As language models shift from single-shot answer generation toward multi-step reasoning that retrieves and consumes evidence mid-inference, evaluating the role of individual retrieved items becomes more important. Existing RAG evaluation typically targets final-answer quality, citation faithfulness, or answer-level attribution, but none of these directly targets the intervention-based, per-evidence-item utility view we study here. We introduce CUE-R, a lightweight intervention-based framework for measuring per-evidence-item operational utility in single-shot RAG using shallow observable retrieval-use traces. CUE-R perturbs individual evidence items via REMOVE, REPLACE, and DUPLICATE operators, then measures changes along three utility axes (correctness, proxy-based grounding faithfulness, and confidence error) plus a trace-divergence signal. We also outline an operational evidence-role taxonomy for interpreting intervention outcomes. Experiments on HotpotQA and 2WikiMultihopQA with Qwen-3 8B and GPT-5.2 reveal a consistent pattern: REMOVE and REPLACE substantially harm correctness and grounding while producing large trace shifts, whereas DUPLICATE is often answer-redundant yet not fully behaviorally neutral. A zero-retrieval control confirms that these effects arise from degradation of meaningful retrieval. A two-support ablation further shows that multi-hop evidence items can interact non-additively: removing both supports harms performance far more than either single removal. Our results suggest that answer-only evaluation misses important evidence effects and that intervention-based utility analysis is a practical complement for RAG evaluation.

CUE-R: Oltre la risposta finale nella generazione aumentata tramite recupero informazioni

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Abstract

Support