CUE-R: За пределами окончательного ответа в генерации с расширением возможностей поиска

Аннотация

По мере перехода языковых моделей от генерации одношаговых ответов к многошаговым рассуждениям с извлечением и использованием свидетельств в процессе вывода, оценка роли отдельных извлеченных элементов становится все более важной. Существующие методы оценки RAG обычно ориентированы на качество итогового ответа, достоверность цитирования или атрибуцию на уровне ответа, но ни один из них не затрагивает непосредственно основанный на интервенциях подход к оценке полезности отдельных свидетельств, который мы исследуем. Мы представляем CUE-R — облегченную интервенционную структуру для измерения операционной полезности отдельных свидетельств в одношаговом RAG с использованием поверхностных наблюдаемых следов использования извлеченной информации. CUE-R изменяет отдельные элементы свидетельств с помощью операторов REMOVE (УДАЛЕНИЕ), REPLACE (ЗАМЕНА) и DUPLICATE (ДУБЛИРОВАНИЕ), а затем измеряет изменения по трем осям полезности (корректность, достоверность обоснованности на основе прокси-показателей и ошибка уверенности) вместе с сигналом расхождения следов. Мы также предлагаем операционную таксономию ролей свидетельств для интерпретации результатов интервенций. Эксперименты на HotpotQA и 2WikiMultihopQA с моделями Qwen-3 8B и GPT-5.2 выявляют устойчивую закономерность: REMOVE и REPLACE существенно снижают корректность и обоснованность, вызывая значительные сдвиги в следах, тогда как DUPLICATE часто оказывается избыточным для ответа, но не полностью нейтральным с точки зрения поведения. Контрольный эксперимент с нулевым извлечением подтверждает, что эти эффекты возникают из-за деградации содержательного поиска. Абляционное исследование с двумя опорами дополнительно показывает, что элементы свидетельств для многошаговых выводов могут взаимодействовать неаддитивно: удаление обеих опор наносит гораздо больший ущерб производительности, чем удаление любой одной по отдельности. Наши результаты позволяют предположить, что оценка, ориентированная только на ответ, упускает важные эффекты свидетельств, а анализ полезности на основе интервенций является практичным дополнением к оценке RAG.

English

As language models shift from single-shot answer generation toward multi-step reasoning that retrieves and consumes evidence mid-inference, evaluating the role of individual retrieved items becomes more important. Existing RAG evaluation typically targets final-answer quality, citation faithfulness, or answer-level attribution, but none of these directly targets the intervention-based, per-evidence-item utility view we study here. We introduce CUE-R, a lightweight intervention-based framework for measuring per-evidence-item operational utility in single-shot RAG using shallow observable retrieval-use traces. CUE-R perturbs individual evidence items via REMOVE, REPLACE, and DUPLICATE operators, then measures changes along three utility axes (correctness, proxy-based grounding faithfulness, and confidence error) plus a trace-divergence signal. We also outline an operational evidence-role taxonomy for interpreting intervention outcomes. Experiments on HotpotQA and 2WikiMultihopQA with Qwen-3 8B and GPT-5.2 reveal a consistent pattern: REMOVE and REPLACE substantially harm correctness and grounding while producing large trace shifts, whereas DUPLICATE is often answer-redundant yet not fully behaviorally neutral. A zero-retrieval control confirms that these effects arise from degradation of meaningful retrieval. A two-support ablation further shows that multi-hop evidence items can interact non-additively: removing both supports harms performance far more than either single removal. Our results suggest that answer-only evaluation misses important evidence effects and that intervention-based utility analysis is a practical complement for RAG evaluation.

CUE-R: За пределами окончательного ответа в генерации с расширением возможностей поиска

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Аннотация

Support