La présence de la réponse favorise les gains de réécriture RAG

Résumé

Les pipelines QA à augmentation par récupération acheminent souvent les passages récupérés via un réécrivain LLM avant un lecteur plus petit, augmentant le F1 de dizaines de points sur les bancs d'essai multi-sauts ; ce gain est généralement attribué à une meilleure qualité des preuves. Nous nous demandons si cette amélioration est causalement due à la présence de la chaîne de réponse de référence dans le contexte réécrit plutôt qu'à la curation en soi, en utilisant un audit d'intervention contrôlé. Pour chaque contexte réécrit, nous réexécutons le lecteur après l'une des quatre modifications contrôlées apportées à la sortie compilée : suppression du span de réponse de référence, remplacement par un span aléatoire non lié à la réponse de longueur appariée (placebo), ou injection de la réponse de référence dans les réécritures où elle était absente (au préfixe ou à une frontière de phrase médiane). À travers douze séries d'interventions (cellule, référence) couvrant trois familles de lecteurs (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), deux jeux de données (HotpotQA, 2WikiMultihopQA) et trois arrangements de compilateurs (MA-only, MB-only, MA+verify), la suppression de la réponse de référence réduit le F1 du lecteur de 28 à 64 points par rapport au placebo de longueur appariée sur les strates appariées de réponse-dans-compilation, et l'ajout de la réponse de référence au préfixe dans les réécritures qui en étaient dépourvues augmente le F1 de +0,7 à +9,7 points dans 10 des 12 combinaisons (cellule, référence). Un audit compagnon à cinq sentinelles montre que la sonde conventionnelle à [MASK] unique est elle-même fragile face aux sentinelles : sur 2Wiki, elle rapporte un « résidu de non-fuite » de +4,12 F1 qui se transforme en -3,33 à -7,81 F1 sous quatre sentinelles alternatives et échoue à un test d'équivalence pour trois de ces quatre (1/4 réussite). Nous ne proposons pas de nouveau réécrivain ni d'atténuation ; nous publions l'exécuteur d'intervention et le panel de sentinelles afin que d'autres affirmations de gain par réécrivain puissent être testées selon le même standard.

English

Retrieval-augmented QA pipelines often route retrieved passages through an LLM rewriter before a smaller reader, lifting F1 by tens of points on multi-hop benchmarks; this gain is typically credited to improved evidence quality. We ask whether that lift is causally driven by the gold answer string appearing in the rewritten context rather than by curation per se, using a controlled intervention audit. For each rewritten context we re-run the reader after one of four controlled edits to the compile output: removing the gold answer span, replacing a length-matched random non-answer span (placebo), or injecting the gold into rewrites where it was absent (at the prefix or at a midpoint sentence boundary). Across twelve completed (cell, baseline) intervention runs spanning three reader families (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), two datasets (HotpotQA, 2WikiMultihopQA), and three compiler arrangements (MA-only, MB-only, MA+verify), removing the gold answer drops reader F1 by 28 to 64 points beyond the length-matched placebo on paired answer-in-compile strata, and prepending the gold into rewrites that lacked it raises F1 by +0.7 to +9.7 points in 10 of 12 (cell, baseline) combinations. A companion five-sentinel audit shows the conventional single-[MASK] probe is itself sentinel-fragile: on 2Wiki it reports a +4.12~F1 ``non-leakage residual'' that flips to -3.33 to -7.81~F1 under four alternative sentinels and fails an equivalence test for three of those four (1/4~pass). We do not propose a new rewriter or mitigation; we release the intervention runner and the sentinel panel so that other rewriter-gain claims can be tested against the same standard.