A Presença da Resposta Impulsiona os Ganhos de Reescrita em RAG

Resumo

Pipelines de QA aumentadas por recuperação frequentemente roteiam passagens recuperadas através de um reescritor de LLM antes de um leitor menor, elevando o F1 em dezenas de pontos em benchmarks multi-hop; esse ganho é tipicamente atribuído à melhoria na qualidade das evidências. Perguntamos se essa elevação é causalmente impulsionada pelo aparecimento da string de resposta dourada no contexto reescrito, e não pela curadoria em si, usando uma auditoria de intervenção controlada. Para cada contexto reescrito, reexecutamos o leitor após uma de quatro edições controladas na saída compilada: remover o span da resposta dourada, substituir por um span aleatório de não resposta de comprimento equivalente (placebo), ou injetar a resposta dourada em reescritas onde ela estava ausente (no prefixo ou no limite de uma sentença no meio do texto). Através de doze execuções de intervenção (célula, linha de base) concluídas, abrangendo três famílias de leitores (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), dois conjuntos de dados (HotpotQA, 2WikiMultihopQA) e três arranjos de compilador (apenas MA, apenas MB, MA+verificar), remover a resposta dourada reduz o F1 do leitor em 28 a 64 pontos além do placebo de comprimento equivalente em estratos pareados de resposta no compilado, e prefixar a resposta dourada em reescritas que não a continham aumenta o F1 em +0,7 a +9,7 pontos em 10 das 12 combinações (célula, linha de base). Uma auditoria companheira de cinco sentinelas mostra que a sonda convencional de único [MASK] é em si mesma frágil a sentinelas: no 2Wiki, ela relata um resíduo de não-vazamento de +4,12~F1 que se inverte para -3,33 a -7,81~F1 sob quatro sentinelas alternativas e falha em um teste de equivalência para três dessas quatro (1/4~passa). Não propomos um novo reescritor ou mitigação; disponibilizamos o executor de intervenção e o painel de sentinelas para que outras alegações de ganho de reescritor possam ser testadas contra o mesmo padrão.

English

Retrieval-augmented QA pipelines often route retrieved passages through an LLM rewriter before a smaller reader, lifting F1 by tens of points on multi-hop benchmarks; this gain is typically credited to improved evidence quality. We ask whether that lift is causally driven by the gold answer string appearing in the rewritten context rather than by curation per se, using a controlled intervention audit. For each rewritten context we re-run the reader after one of four controlled edits to the compile output: removing the gold answer span, replacing a length-matched random non-answer span (placebo), or injecting the gold into rewrites where it was absent (at the prefix or at a midpoint sentence boundary). Across twelve completed (cell, baseline) intervention runs spanning three reader families (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), two datasets (HotpotQA, 2WikiMultihopQA), and three compiler arrangements (MA-only, MB-only, MA+verify), removing the gold answer drops reader F1 by 28 to 64 points beyond the length-matched placebo on paired answer-in-compile strata, and prepending the gold into rewrites that lacked it raises F1 by +0.7 to +9.7 points in 10 of 12 (cell, baseline) combinations. A companion five-sentinel audit shows the conventional single-[MASK] probe is itself sentinel-fragile: on 2Wiki it reports a +4.12~F1 ``non-leakage residual'' that flips to -3.33 to -7.81~F1 under four alternative sentinels and fails an equivalence test for three of those four (1/4~pass). We do not propose a new rewriter or mitigation; we release the intervention runner and the sentinel panel so that other rewriter-gain claims can be tested against the same standard.