CUE-R: Más Allá de la Respuesta Final en la Generación Aumentada por Recuperación

Resumen

A medida que los modelos de lenguaje transitan desde la generación de respuestas únicas hacia el razonamiento multi-paso que recupera y consume evidencia durante la inferencia, evaluar el rol de los ítems recuperados individuales se vuelve más importante. La evaluación de RAG existente típicamente se centra en la calidad de la respuesta final, la fidelidad de las citas o la atribución a nivel de respuesta, pero ninguno de estos enfoques aborda directamente la visión de utilidad por-ítem-de-evidencia basada en intervenciones que estudiamos aquí. Introducimos CUE-R, un marco ligero basado en intervenciones para medir la utilidad operacional por-ítem-de-evidencia en RAG de respuesta única utilizando trazas observables superficiales del uso de la recuperación. CUE-R perturba ítems de evidencia individuales mediante operadores de ELIMINAR, REEMPLAZAR y DUPLICAR, y luego mide los cambios a lo largo de tres ejes de utilidad (corrección, fidelidad de fundamentación basada en proxy y error de confianza) más una señal de divergencia de trazas. También esbozamos una taxonomía operacional de roles de la evidencia para interpretar los resultados de las intervenciones. Los experimentos en HotpotQA y 2WikiMultihopQA con Qwen-3 8B y GPT-5.2 revelan un patrón consistente: ELIMINAR y REEMPLAZAR perjudican sustancialmente la corrección y la fundamentación mientras producen grandes desplazamientos en las trazas, mientras que DUPLICAR a menudo es redundante para la respuesta pero no completamente neutral a nivel conductual. Un control de cero-recuperación confirma que estos efectos surgen de la degradación de una recuperación significativa. Una ablación de dos-soportes muestra además que los ítems de evidencia multi-paso pueden interactuar de forma no aditiva: eliminar ambos soportes perjudica el rendimiento mucho más que la eliminación individual de cualquiera de ellos. Nuestros resultados sugieren que la evaluación centrada solo en la respuesta pasa por alto efectos importantes de la evidencia y que el análisis de utilidad basado en intervenciones es un complemento práctico para la evaluación de RAG.

English

As language models shift from single-shot answer generation toward multi-step reasoning that retrieves and consumes evidence mid-inference, evaluating the role of individual retrieved items becomes more important. Existing RAG evaluation typically targets final-answer quality, citation faithfulness, or answer-level attribution, but none of these directly targets the intervention-based, per-evidence-item utility view we study here. We introduce CUE-R, a lightweight intervention-based framework for measuring per-evidence-item operational utility in single-shot RAG using shallow observable retrieval-use traces. CUE-R perturbs individual evidence items via REMOVE, REPLACE, and DUPLICATE operators, then measures changes along three utility axes (correctness, proxy-based grounding faithfulness, and confidence error) plus a trace-divergence signal. We also outline an operational evidence-role taxonomy for interpreting intervention outcomes. Experiments on HotpotQA and 2WikiMultihopQA with Qwen-3 8B and GPT-5.2 reveal a consistent pattern: REMOVE and REPLACE substantially harm correctness and grounding while producing large trace shifts, whereas DUPLICATE is often answer-redundant yet not fully behaviorally neutral. A zero-retrieval control confirms that these effects arise from degradation of meaningful retrieval. A two-support ablation further shows that multi-hop evidence items can interact non-additively: removing both supports harms performance far more than either single removal. Our results suggest that answer-only evaluation misses important evidence effects and that intervention-based utility analysis is a practical complement for RAG evaluation.

CUE-R: Más Allá de la Respuesta Final en la Generación Aumentada por Recuperación

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Resumen

Support