CUE-R: Além da Resposta Final na Geração Aumentada por Recuperação

Resumo

À medida que os modelos de linguagem evoluem da geração de respostas únicas para raciocínios de múltiplos passos que recuperam e consomem evidências durante a inferência, avaliar o papel de itens individuais recuperados torna-se mais importante. A avaliação de RAG existente normalmente foca na qualidade da resposta final, na fidelidade de citações ou na atribuição a nível de resposta, mas nenhuma destas aborda diretamente a visão de utilidade por item de evidência baseada em intervenção que estudamos aqui. Apresentamos o CUE-R, um framework leve baseado em intervenção para medir a utilidade operacional por item de evidência em RAG de etapa única usando traços superficiais observáveis de uso de recuperação. O CUE-R perturba itens individuais de evidência através dos operadores REMOVER, SUBSTITUIR e DUPLICAR, medindo depois mudanças ao longo de três eixos de utilidade (correção, fidelidade de fundamentação baseada em proxy e erro de confiança) mais um sinal de divergência de traço. Também delineamos uma taxonomia operacional de papéis de evidência para interpretar resultados de intervenção. Experiências no HotpotQA e 2WikiMultihopQA com Qwen-3 8B e GPT-5.2 revelam um padrão consistente: REMOVER e SUBSTITUIR prejudicam substancialmente a correção e a fundamentação enquanto produzem grandes desvios de traço, enquanto DUPLICAR é frequentemente redundante para a resposta, mas não totalmente neutro em termos comportamentais. Um controlo de recuperação zero confirma que estes efeitos surgem da degradação de uma recuperação significativa. Uma ablação de dois suportes mostra ainda que itens de evidência multi-hop podem interagir de forma não aditiva: remover ambos os suportes prejudica muito mais o desempenho do que qualquer remoção única. Os nossos resultados sugerem que a avaliação apenas da resposta omite efeitos importantes das evidências e que a análise de utilidade baseada em intervenção é um complemento prático para a avaliação de RAG.

English

As language models shift from single-shot answer generation toward multi-step reasoning that retrieves and consumes evidence mid-inference, evaluating the role of individual retrieved items becomes more important. Existing RAG evaluation typically targets final-answer quality, citation faithfulness, or answer-level attribution, but none of these directly targets the intervention-based, per-evidence-item utility view we study here. We introduce CUE-R, a lightweight intervention-based framework for measuring per-evidence-item operational utility in single-shot RAG using shallow observable retrieval-use traces. CUE-R perturbs individual evidence items via REMOVE, REPLACE, and DUPLICATE operators, then measures changes along three utility axes (correctness, proxy-based grounding faithfulness, and confidence error) plus a trace-divergence signal. We also outline an operational evidence-role taxonomy for interpreting intervention outcomes. Experiments on HotpotQA and 2WikiMultihopQA with Qwen-3 8B and GPT-5.2 reveal a consistent pattern: REMOVE and REPLACE substantially harm correctness and grounding while producing large trace shifts, whereas DUPLICATE is often answer-redundant yet not fully behaviorally neutral. A zero-retrieval control confirms that these effects arise from degradation of meaningful retrieval. A two-support ablation further shows that multi-hop evidence items can interact non-additively: removing both supports harms performance far more than either single removal. Our results suggest that answer-only evaluation misses important evidence effects and that intervention-based utility analysis is a practical complement for RAG evaluation.

CUE-R: Além da Resposta Final na Geração Aumentada por Recuperação

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Resumo

Support