CUE-R : Au-delà de la réponse finale dans la génération augmentée par la recherche

Résumé

Alors que les modèles de langage évoluent d'une génération de réponses unique vers un raisonnement en plusieurs étapes qui récupère et utilise des preuves en cours d'inférence, l'évaluation du rôle des éléments individuels récupérés devient plus cruciale. L'évaluation RAG existante se concentre généralement sur la qualité de la réponse finale, la fidélité des citations ou l'attribution au niveau de la réponse, mais aucune n'aborde directement la perspective utilitaire par élément de preuve, basée sur l'intervention, que nous étudions ici. Nous présentons CUE-R, un cadre léger basé sur l'intervention pour mesurer l'utilité opérationnelle par élément de preuve dans le RAG en une seule étape, en utilisant des traces d'utilisation de la récupération observables et superficielles. CUE-R perturbe les éléments de preuve individuels via les opérateurs SUPPRIMER, REMPLACER et DUPLIQUER, puis mesure les changements selon trois axes d'utilité (exactitude, fidélité de l'ancrage par proxy et erreur de confiance) ainsi qu'un signal de divergence des traces. Nous proposons également une taxonomie opérationnelle des rôles des preuves pour interpréter les résultats des interventions. Les expériences sur HotpotQA et 2WikiMultihopQA avec Qwen-3 8B et GPT-5.2 révèlent un schéma cohérent : SUPPRIMER et REMPLACER nuisent considérablement à l'exactitude et à l'ancrage tout en produisant des décalages importants des traces, tandis que DUPLIQUER est souvent redondant pour la réponse sans être totalement neutre comportementalement. Un contrôle sans récupération confirme que ces effets résultent de la dégradation d'une récupération significative. Une ablation à deux supports montre en outre que les éléments de preuve multi-sauts peuvent interagir de manière non additive : supprimer les deux supports nuit bien plus aux performances que la suppression d'un seul. Nos résultats suggèrent que l'évaluation basée uniquement sur la réponse néglige des effets importants des preuves et que l'analyse d'utilité basée sur l'intervention est un complément pratique pour l'évaluation RAG.

English

As language models shift from single-shot answer generation toward multi-step reasoning that retrieves and consumes evidence mid-inference, evaluating the role of individual retrieved items becomes more important. Existing RAG evaluation typically targets final-answer quality, citation faithfulness, or answer-level attribution, but none of these directly targets the intervention-based, per-evidence-item utility view we study here. We introduce CUE-R, a lightweight intervention-based framework for measuring per-evidence-item operational utility in single-shot RAG using shallow observable retrieval-use traces. CUE-R perturbs individual evidence items via REMOVE, REPLACE, and DUPLICATE operators, then measures changes along three utility axes (correctness, proxy-based grounding faithfulness, and confidence error) plus a trace-divergence signal. We also outline an operational evidence-role taxonomy for interpreting intervention outcomes. Experiments on HotpotQA and 2WikiMultihopQA with Qwen-3 8B and GPT-5.2 reveal a consistent pattern: REMOVE and REPLACE substantially harm correctness and grounding while producing large trace shifts, whereas DUPLICATE is often answer-redundant yet not fully behaviorally neutral. A zero-retrieval control confirms that these effects arise from degradation of meaningful retrieval. A two-support ablation further shows that multi-hop evidence items can interact non-additively: removing both supports harms performance far more than either single removal. Our results suggest that answer-only evaluation misses important evidence effects and that intervention-based utility analysis is a practical complement for RAG evaluation.

CUE-R : Au-delà de la réponse finale dans la génération augmentée par la recherche

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Résumé

Support