Antwortpräsenz treibt RAG-Umschreibungsgewinne

Zusammenfassung

Abrufgestützte QA-Pipelines leiten abgerufene Passagen oft durch einen LLM-Umschreiber, bevor sie von einem kleineren Leser verarbeitet werden, was den F1-Wert bei Multi-Hop-Benchmarks um Dutzende von Punkten erhöht; dieser Gewinn wird üblicherweise auf eine verbesserte Evidenzqualität zurückgeführt. Wir untersuchen mittels eines kontrollierten Interventionsaudits, ob dieser Anstieg kausal durch das Erscheinen des Gold-Antwort-Strings im umgeschriebenen Kontext verursacht wird und nicht durch die Kuration an sich. Für jeden umgeschriebenen Kontext führen wir den Leser erneut aus, nachdem eine von vier kontrollierten Bearbeitungen an der Kompilierungsausgabe vorgenommen wurde: Entfernen der Gold-Antwort-Spanne, Ersetzen durch eine längenangepasste zufällige Nicht-Antwort-Spanne (Placebo) oder Einfügen der Gold-Antwort in Umschreibungen, in denen sie fehlte (am Präfix oder an einer Satzgrenze in der Mitte). Über zwölf abgeschlossene (Zelle, Baseline)-Interventionsläufe hinweg, die drei Leserfamilien (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), zwei Datensätze (HotpotQA, 2WikiMultihopQA) und drei Compiler-Anordnungen (MA-only, MB-only, MA+verify) umfassen, führt das Entfernen der Gold-Antwort zu einem Abfall des Leser-F1 um 28 bis 64 Punkte über das längenangepasste Placebo hinaus auf gepaarten Antwort-in-Kompilierung-Schichten, und das Voranstellen der Gold-Antwort in Umschreibungen, denen sie fehlte, erhöht den F1 in 10 von 12 (Zelle, Baseline)-Kombinationen um +0,7 bis +9,7 Punkte. Ein begleitendes Fünf-Sentinel-Audit zeigt, dass die herkömmliche Einzel-[MASK]-Sonde selbst sentinel-anfällig ist: Bei 2Wiki berichtet sie ein +4,12~F1 „Nicht-Leckage-Residuum“, das unter vier alternativen Sentinel-Wächtern auf -3,33 bis -7,81~F1 kippt und einen Äquivalenztest für drei dieser vier nicht besteht (1/4~bestanden). Wir schlagen keinen neuen Umschreiber oder keine Abhilfe vor; wir veröffentlichen den Intervention Runner und das Sentinel-Panel, damit andere Behauptungen über Umschreibergewinne an demselben Standard getestet werden können.

English

Retrieval-augmented QA pipelines often route retrieved passages through an LLM rewriter before a smaller reader, lifting F1 by tens of points on multi-hop benchmarks; this gain is typically credited to improved evidence quality. We ask whether that lift is causally driven by the gold answer string appearing in the rewritten context rather than by curation per se, using a controlled intervention audit. For each rewritten context we re-run the reader after one of four controlled edits to the compile output: removing the gold answer span, replacing a length-matched random non-answer span (placebo), or injecting the gold into rewrites where it was absent (at the prefix or at a midpoint sentence boundary). Across twelve completed (cell, baseline) intervention runs spanning three reader families (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), two datasets (HotpotQA, 2WikiMultihopQA), and three compiler arrangements (MA-only, MB-only, MA+verify), removing the gold answer drops reader F1 by 28 to 64 points beyond the length-matched placebo on paired answer-in-compile strata, and prepending the gold into rewrites that lacked it raises F1 by +0.7 to +9.7 points in 10 of 12 (cell, baseline) combinations. A companion five-sentinel audit shows the conventional single-[MASK] probe is itself sentinel-fragile: on 2Wiki it reports a +4.12~F1 ``non-leakage residual'' that flips to -3.33 to -7.81~F1 under four alternative sentinels and fails an equivalence test for three of those four (1/4~pass). We do not propose a new rewriter or mitigation; we release the intervention runner and the sentinel panel so that other rewriter-gain claims can be tested against the same standard.