CUE-R: 検索拡張生成における最終回答を超えて
CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation
April 7, 2026
著者: Siddharth Jain, Venkat Narayan Vedam
cs.AI
要旨
言語モデルが単発の回答生成から、推論途中に証拠を検索・利用する多段階推論へと移行するにつれ、個々の検索項目の役割を評価することが重要性を増している。既存のRAG評価は通常、最終回答の品質、引用の忠実性、または回答レベルでの帰属に焦点を当てているが、これらはいずれも本論文で検討する介入ベースの証拠項目単位の効用視点を直接対象としていない。我々はCUE-Rを提案する。これは、浅い観測可能な検索利用痕跡を用いて、単発RAGにおける証拠項目単位の操作的効用を測定する、軽量な介入ベースのフレームワークである。CUE-Rは、REMOVE、REPLACE、DUPLICATEという操作子によって個々の証拠項目を摂動させ、3つの効用軸(正確性、代理指標に基づく接地忠実性、信頼度誤差)と痕跡乖離信号に沿った変化を測定する。さらに、介入結果を解釈するための操作的な証拠役割分類も概説する。HotpotQAと2WikiMultihopQAを用い、Qwen-3 8BおよびGPT-5.2で行った実験から、一貫したパターンが明らかになった:REMOVEとREPLACEは、痕跡に大きな変化を生じさせながら、正確性と接地を大幅に損なう。一方、DUPLICATEは回答に対して冗長であることが多いが、行動的には完全に中立ではない。ゼロ検索対照実験により、これらの効果が有意義な検索の劣化に起因することが確認された。2つの支持証拠に関する ablation 実験はさらに、マルチホップの証拠項目が非加算的に相互作用し得ることを示す:両方の支持証拠を除去すると、いずれか一方のみを除去した場合よりも性能がはるかに大きく損なわれる。我々の結果は、回答のみの評価では重要な証拠の効果が見逃されること、および介入ベースの効用分析がRAG評価における実用的な補完手段となり得ることを示唆している。
English
As language models shift from single-shot answer generation toward multi-step reasoning that retrieves and consumes evidence mid-inference, evaluating the role of individual retrieved items becomes more important. Existing RAG evaluation typically targets final-answer quality, citation faithfulness, or answer-level attribution, but none of these directly targets the intervention-based, per-evidence-item utility view we study here. We introduce CUE-R, a lightweight intervention-based framework for measuring per-evidence-item operational utility in single-shot RAG using shallow observable retrieval-use traces. CUE-R perturbs individual evidence items via REMOVE, REPLACE, and DUPLICATE operators, then measures changes along three utility axes (correctness, proxy-based grounding faithfulness, and confidence error) plus a trace-divergence signal. We also outline an operational evidence-role taxonomy for interpreting intervention outcomes. Experiments on HotpotQA and 2WikiMultihopQA with Qwen-3 8B and GPT-5.2 reveal a consistent pattern: REMOVE and REPLACE substantially harm correctness and grounding while producing large trace shifts, whereas DUPLICATE is often answer-redundant yet not fully behaviorally neutral. A zero-retrieval control confirms that these effects arise from degradation of meaningful retrieval. A two-support ablation further shows that multi-hop evidence items can interact non-additively: removing both supports harms performance far more than either single removal. Our results suggest that answer-only evaluation misses important evidence effects and that intervention-based utility analysis is a practical complement for RAG evaluation.