CUE-R: Über die endgültige Antwort hinaus im abrufverstärkten Generieren

Zusammenfassung

Da sich Sprachmodelle von der Ein-Schritt-Antwortgenerierung hin zu mehrstufigen Reasoning-Prozessen entwickeln, die Evidenz während des Inferenzvorgangs abrufen und verarbeiten, wird die Bewertung der Rolle einzelner abgerufener Elemente wichtiger. Bisherige RAG-Evaluierungen zielen typischerweise auf die Endantwortqualität, Zitiertreue oder attribution auf Antwortebene ab, doch keine davon adressiert direkt die interventionsbasierte, evidenzelement-spezifische Nutzensicht, die wir hier untersuchen. Wir stellen CUE-R vor, ein leichtgewichtiges, interventionsbasiertes Framework zur Messung des operationellen Nutzens einzelner Evidenzelemente in Single-Shot-RAG anhand flacher, beobachtbarer Abrufnutzungsspuren. CUE-R verändert einzelne Evidenzelemente durch ENTFERNEN, ERSETZEN und DUPLIZIEREN und misst die Veränderungen entlang drei Nutzenachsen (Korrektheit, proxy-basierte Verankerungstreue und Konfidenzfehler) plus einem Spurdivergenz-Signal. Wir skizzieren zudem eine operationelle Evidenzrollen-Taxonomie zur Interpretation der Interventionsergebnisse. Experimente mit HotpotQA und 2WikiMultihopQA sowie Qwen-3 8B und GPT-5.2 zeigen ein konsistentes Muster: ENTFERNEN und ERSETZEN beeinträchtigen Korrektheit und Verankerung erheblich und verursachen große Spurverschiebungen, während DUPLIZIEREN oft antwortredundant, aber nicht vollständig verhaltensneutral ist. Eine Zero-Retrieval-Kontrolle bestätigt, dass diese Effekte aus der Verschlechterung sinnvollen Abrufs resultieren. Eine Zwei-Stützen-Ablation zeigt weiter, dass Evidenzelemente für Multi-Hop-Aufgaben nicht-additiv interagieren können: Das Entfernen beider Stützen schadet der Leistung weit mehr als die einzelne Entfernung. Unsere Ergebnisse legen nahe, dass eine reine Antwortevaluation wichtige Evidenzeffekte übersieht und dass eine interventionsbasierte Nutzenanalyse eine praktische Ergänzung für die RAG-Evaluation darstellt.

English

As language models shift from single-shot answer generation toward multi-step reasoning that retrieves and consumes evidence mid-inference, evaluating the role of individual retrieved items becomes more important. Existing RAG evaluation typically targets final-answer quality, citation faithfulness, or answer-level attribution, but none of these directly targets the intervention-based, per-evidence-item utility view we study here. We introduce CUE-R, a lightweight intervention-based framework for measuring per-evidence-item operational utility in single-shot RAG using shallow observable retrieval-use traces. CUE-R perturbs individual evidence items via REMOVE, REPLACE, and DUPLICATE operators, then measures changes along three utility axes (correctness, proxy-based grounding faithfulness, and confidence error) plus a trace-divergence signal. We also outline an operational evidence-role taxonomy for interpreting intervention outcomes. Experiments on HotpotQA and 2WikiMultihopQA with Qwen-3 8B and GPT-5.2 reveal a consistent pattern: REMOVE and REPLACE substantially harm correctness and grounding while producing large trace shifts, whereas DUPLICATE is often answer-redundant yet not fully behaviorally neutral. A zero-retrieval control confirms that these effects arise from degradation of meaningful retrieval. A two-support ablation further shows that multi-hop evidence items can interact non-additively: removing both supports harms performance far more than either single removal. Our results suggest that answer-only evaluation misses important evidence effects and that intervention-based utility analysis is a practical complement for RAG evaluation.

CUE-R: Über die endgültige Antwort hinaus im abrufverstärkten Generieren

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Zusammenfassung

Support