Antwoordaanwezigheid drijft de winst bij RAG-herschrijven

Samenvatting

Zoekgestuurde QA-pijplijnen leiden opgehaalde passages vaak door een LLM-herschrijver voordat ze een kleinere lezer bereiken, wat de F1-score op meerstaps benchmarks met tientallen punten verhoogt; deze winst wordt doorgaans toegeschreven aan verbeterde bewijskwaliteit. Wij vragen of die verhoging causaal wordt gedreven door het verschijnen van de gouden antwoordtekenreeks in de herschreven context in plaats van door de bewerking op zich, met behulp van een gecontroleerde interventie-audit. Voor elke herschreven context voeren we de lezer opnieuw uit na een van vier gecontroleerde bewerkingen aan de compilatie-uitvoer: het verwijderen van de gouden antwoordspan, het vervangen door een lengtegematchede willekeurige niet-antwoordspan (placebo), of het injecteren van het goud in herschrijvingen waar het ontbrak (aan het prefix of op een zinsgrens halverwege). Over twaalf voltooide (cel, basislijn) interventieruns die drie lezerfamilies (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), twee datasets (HotpotQA, 2WikiMultihopQA), en drie compileropstellingen (alleen MA, alleen MB, MA+verify) omvatten, verlaagt het verwijderen van het gouden antwoord de lezer-F1 met 28 tot 64 punten meer dan de lengtegematchede placebo op gepaarde antwoord-in-compilatie strata, en het voorvoegen van het goud in herschrijvingen die het misten verhoogt de F1 met +0.7 tot +9.7 punten in 10 van de 12 (cel, basislijn) combinaties. Een bijbehorende vijf-sentinel audit toont aan dat de conventionele enkele-[MASK]-probe zelf sentinel-kwetsbaar is: op 2Wiki rapporteert het een +4.12~F1 ``niet-lekkage residu'' dat omslaat naar -3.33 tot -7.81~F1 onder vier alternatieve sentinels en faalt voor een equivalentietoets voor drie van die vier (1/4~slaagt). Wij stellen geen nieuwe herschrijver of mitigatie voor; wij geven de interventie-uitvoerder en het sentinelpanel vrij, zodat andere claims over herschrijverwinst tegen dezelfde standaard kunnen worden getest.

English

Retrieval-augmented QA pipelines often route retrieved passages through an LLM rewriter before a smaller reader, lifting F1 by tens of points on multi-hop benchmarks; this gain is typically credited to improved evidence quality. We ask whether that lift is causally driven by the gold answer string appearing in the rewritten context rather than by curation per se, using a controlled intervention audit. For each rewritten context we re-run the reader after one of four controlled edits to the compile output: removing the gold answer span, replacing a length-matched random non-answer span (placebo), or injecting the gold into rewrites where it was absent (at the prefix or at a midpoint sentence boundary). Across twelve completed (cell, baseline) intervention runs spanning three reader families (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), two datasets (HotpotQA, 2WikiMultihopQA), and three compiler arrangements (MA-only, MB-only, MA+verify), removing the gold answer drops reader F1 by 28 to 64 points beyond the length-matched placebo on paired answer-in-compile strata, and prepending the gold into rewrites that lacked it raises F1 by +0.7 to +9.7 points in 10 of 12 (cell, baseline) combinations. A companion five-sentinel audit shows the conventional single-[MASK] probe is itself sentinel-fragile: on 2Wiki it reports a +4.12~F1 ``non-leakage residual'' that flips to -3.33 to -7.81~F1 under four alternative sentinels and fails an equivalence test for three of those four (1/4~pass). We do not propose a new rewriter or mitigation; we release the intervention runner and the sentinel panel so that other rewriter-gain claims can be tested against the same standard.