Наличие ответа обусловливает улучшения при переписывании RAG

Аннотация

Конвейеры вопросно-ответных систем с дополнением检索 (Retrieval-augmented QA) часто направляют извлеченные отрывки через LLM-переписчик перед обработкой более компактным считывателем, что повышает F1 на десятки пунктов в многопереходных бенчмарках; этот прирост обычно объясняют улучшенным качеством свидетельств. Мы задаемся вопросом, обусловлен ли этот прирост причинно-следственно появлением эталонной строки ответа в переписанном контексте, а не самой обработкой, используя контролируемый аудит вмешательств. Для каждого переписанного контекста мы повторно запускаем считыватель после одного из четырех контролируемых редактирований выходных данных компиляции: удаление диапазона эталонного ответа, замена на случайный диапазон не-ответа совпадающей длины (плацебо) или внедрение эталонного ответа в переписанные тексты, где он отсутствовал (в начале или на границе предложения в середине). В ходе двенадцати завершенных прогонов вмешательств (ячейка, базовый уровень), охватывающих три семейства считывателей (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), два набора данных (HotpotQA, 2WikiMultihopQA) и три конфигурации компилятора (только MA, только MB, MA+верификация), удаление эталонного ответа снижает F1 считывателя на 28–64 пункта по сравнению с плацебо совпадающей длины в парных стратах «ответ-в-компиляции», а добавление эталонного ответа в начало переписанных текстов, где он отсутствовал, повышает F1 на +0,7–+9,7 пунктов в 10 из 12 комбинаций (ячейка, базовый уровень). Сопутствующий аудит с пятью сентинелями показывает, что обычный одно-[MASK]-зонд сам является сентинель-хрупким: на 2Wiki он сообщает о +4,12 F1 «остатка без утечки», который меняется на -3,33 до -7,81 F1 при четырех альтернативных сентинелях и не проходит тест на эквивалентность для трех из этих четырех (1/4 проходит). Мы не предлагаем новый переписчик или меры смягчения; мы публикуем раннер вмешательств и панель сентинелей, чтобы другие утверждения о приросте от переписчиков можно было проверить по тому же стандарту.

English

Retrieval-augmented QA pipelines often route retrieved passages through an LLM rewriter before a smaller reader, lifting F1 by tens of points on multi-hop benchmarks; this gain is typically credited to improved evidence quality. We ask whether that lift is causally driven by the gold answer string appearing in the rewritten context rather than by curation per se, using a controlled intervention audit. For each rewritten context we re-run the reader after one of four controlled edits to the compile output: removing the gold answer span, replacing a length-matched random non-answer span (placebo), or injecting the gold into rewrites where it was absent (at the prefix or at a midpoint sentence boundary). Across twelve completed (cell, baseline) intervention runs spanning three reader families (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), two datasets (HotpotQA, 2WikiMultihopQA), and three compiler arrangements (MA-only, MB-only, MA+verify), removing the gold answer drops reader F1 by 28 to 64 points beyond the length-matched placebo on paired answer-in-compile strata, and prepending the gold into rewrites that lacked it raises F1 by +0.7 to +9.7 points in 10 of 12 (cell, baseline) combinations. A companion five-sentinel audit shows the conventional single-[MASK] probe is itself sentinel-fragile: on 2Wiki it reports a +4.12~F1 ``non-leakage residual'' that flips to -3.33 to -7.81~F1 under four alternative sentinels and fails an equivalence test for three of those four (1/4~pass). We do not propose a new rewriter or mitigation; we release the intervention runner and the sentinel panel so that other rewriter-gain claims can be tested against the same standard.