CUE-R: 최종 답변을 넘어선 검색 증강 생성
CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation
April 7, 2026
저자: Siddharth Jain, Venkat Narayan Vedam
cs.AI
초록
언어 모델이 단일 응답 생성에서 증거를 중간 추론 과정에서 검색하고 활용하는 다단계 추론으로 전환됨에 따라, 개별 검색 항목의 역할을 평가하는 것이 더 중요해지고 있다. 기존 RAG 평가는 일반적으로 최종 응답 품질, 인용 정확성 또는 응답 수준의 귀속에 초점을 맞추지만, 이러한 접근법들은 본 연구에서 다루는 개별 증거 항목에 대한 개입 기반의 효용성 관점을 직접적으로 다루지 않는다. 우리는 단일 샷 RAG에서 관찰 가능한 얕은 검색 사용 흔적을 통해 개별 증거 항목의 운영적 효용성을 측정하는 경량 개입 기반 프레임워크인 CUE-R을 소개한다. CUE-R은 REMOVE, REPLACE, DUPLICATE 연산자를 통해 개별 증거 항목을 교란한 후, 세 가지 효용성 축(정확성, 프록시 기반 근거 정확성, 신뢰도 오차)과 추적 차이 신호를 따라 변화를 측정한다. 또한 개입 결과를 해석하기 위한 운영적 증거 역할 분류 체계를 제시한다. HotpotQA와 2WikiMultihopQA에서 Qwen-3 8B 및 GPT-5.2를 이용한 실험 결과, 일관된 패턴을 확인했다: REMOVE와 REPLACE는 큰 추적 변화를 일으키면서 정확성과 근거 정확성을 현저히 저해하는 반면, DUPLICATE는 종종 응답에 대해 중복적이지만 완전히 행동 중립적이지는 않았다. 제로-검색 대조군을 통해 이러한 효과가 의미 있는 검색 정보의 저하에서 비롯됨을 확인했다. 두 지지 증거에 대한 제거 실험은 다중 홉 증거 항목들이 비가산적으로 상호작용할 수 있음을 추가로 보여준다: 두 증거를 모두 제거했을 때의 성능 저하가 단일 제거보다 훨씬 컸다. 우리의 결과는 응답만을 평가하는 방식이 중요한 증거 효과를 놓치고 있음을 시사하며, 개입 기반 효용성 분석이 RAG 평가에 실용적인 보완책이 될 수 있음을 보여준다.
English
As language models shift from single-shot answer generation toward multi-step reasoning that retrieves and consumes evidence mid-inference, evaluating the role of individual retrieved items becomes more important. Existing RAG evaluation typically targets final-answer quality, citation faithfulness, or answer-level attribution, but none of these directly targets the intervention-based, per-evidence-item utility view we study here. We introduce CUE-R, a lightweight intervention-based framework for measuring per-evidence-item operational utility in single-shot RAG using shallow observable retrieval-use traces. CUE-R perturbs individual evidence items via REMOVE, REPLACE, and DUPLICATE operators, then measures changes along three utility axes (correctness, proxy-based grounding faithfulness, and confidence error) plus a trace-divergence signal. We also outline an operational evidence-role taxonomy for interpreting intervention outcomes. Experiments on HotpotQA and 2WikiMultihopQA with Qwen-3 8B and GPT-5.2 reveal a consistent pattern: REMOVE and REPLACE substantially harm correctness and grounding while producing large trace shifts, whereas DUPLICATE is often answer-redundant yet not fully behaviorally neutral. A zero-retrieval control confirms that these effects arise from degradation of meaningful retrieval. A two-support ablation further shows that multi-hop evidence items can interact non-additively: removing both supports harms performance far more than either single removal. Our results suggest that answer-only evaluation misses important evidence effects and that intervention-based utility analysis is a practical complement for RAG evaluation.