La presencia de la respuesta impulsa las ganancias de reescritura en RAG.

Resumen

Los sistemas de preguntas y respuestas aumentados con recuperación suelen enrutar los pasajes recuperados a través de un reescritor basado en LLM antes de enviarlos a un lector más pequeño, lo que incrementa la puntuación F1 en decenas de puntos en tareas de múltiples saltos; esta mejora suele atribuirse a una mejor calidad de la evidencia. Investigamos si dicho incremento es causalmente impulsado por la aparición de la cadena de respuesta dorada en el contexto reescrito, más que por la curación per se, mediante una auditoría de intervención controlada. Para cada contexto reescrito, volvemos a ejecutar el lector tras aplicar una de cuatro ediciones controladas al resultado compilado: eliminar el segmento de la respuesta dorada, reemplazar un segmento aleatorio sin respuesta de longitud equivalente (placebo), o inyectar la respuesta dorada en reescrituras donde estaba ausente (al inicio o en un límite de oración intermedio). A lo largo de doce ejecuciones de intervención (celda, línea base) completadas que abarcan tres familias de lectores (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), dos conjuntos de datos (HotpotQA, 2WikiMultihopQA) y tres configuraciones de compilación (solo-MA, solo-MB, MA+verificar), la eliminación de la respuesta dorada reduce la puntuación F1 del lector en 28 a 64 puntos más allá del placebo de longitud equivalente en estratos pareados de respuesta presente en la compilación, y anteponer la respuesta dorada en reescrituras que carecían de ella aumenta la puntuación F1 en +0,7 a +9,7 puntos en 10 de las 12 combinaciones (celda, línea base). Una auditoría complementaria de cinco centinelas muestra que la sonda convencional de un solo [MASK] es en sí misma frágil a los centinelas: en 2Wiki reporta un "residual sin fuga" de F1 +4,12 que se invierte a -3,33 a -7,81 F1 bajo cuatro centinelas alternativos y falla una prueba de equivalencia para tres de esos cuatro (1/4 pasa). No proponemos un nuevo reescritor ni mitigación; publicamos el ejecutor de intervención y el panel de centinelas para que otras afirmaciones sobre mejoras del reescritor puedan ser evaluadas con el mismo estándar.

English

Retrieval-augmented QA pipelines often route retrieved passages through an LLM rewriter before a smaller reader, lifting F1 by tens of points on multi-hop benchmarks; this gain is typically credited to improved evidence quality. We ask whether that lift is causally driven by the gold answer string appearing in the rewritten context rather than by curation per se, using a controlled intervention audit. For each rewritten context we re-run the reader after one of four controlled edits to the compile output: removing the gold answer span, replacing a length-matched random non-answer span (placebo), or injecting the gold into rewrites where it was absent (at the prefix or at a midpoint sentence boundary). Across twelve completed (cell, baseline) intervention runs spanning three reader families (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), two datasets (HotpotQA, 2WikiMultihopQA), and three compiler arrangements (MA-only, MB-only, MA+verify), removing the gold answer drops reader F1 by 28 to 64 points beyond the length-matched placebo on paired answer-in-compile strata, and prepending the gold into rewrites that lacked it raises F1 by +0.7 to +9.7 points in 10 of 12 (cell, baseline) combinations. A companion five-sentinel audit shows the conventional single-[MASK] probe is itself sentinel-fragile: on 2Wiki it reports a +4.12~F1 ``non-leakage residual'' that flips to -3.33 to -7.81~F1 under four alternative sentinels and fails an equivalence test for three of those four (1/4~pass). We do not propose a new rewriter or mitigation; we release the intervention runner and the sentinel panel so that other rewriter-gain claims can be tested against the same standard.