QueryBandits для смягчения галлюцинаций: использование семантических признаков для перезаписи без сожаления
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
August 22, 2025
Авторы: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
cs.AI
Аннотация
Продвинутые способности к рассуждению в больших языковых моделях (LLMs) привели к увеличению частоты возникновения галлюцинаций; однако большинство работ по их устранению сосредоточено на фильтрации постфактум, а не на формировании запросов, которые их вызывают. Мы представляем QueryBandits — фреймворк на основе бандитов, который разрабатывает стратегии переформулирования для максимизации модели вознаграждения, учитывающей склонность к галлюцинациям на основе чувствительности 17 лингвистических характеристик входного запроса, тем самым проактивно направляя LLMs в сторону избегания генерации галлюцинаций. На 13 разнообразных бенчмарках для вопросно-ответных систем и 1050 лексически измененных запросах на каждый набор данных наш лучший контекстный QueryBandit (Thompson Sampling) достигает 87,5% успешности по сравнению с базовым подходом без переформулирования и также превосходит статические стратегии нулевого сдвига ("перефразирование" или "расширение") на 42,6% и 60,3% соответственно. Таким образом, мы эмпирически подтверждаем эффективность QueryBandits в снижении галлюцинаций за счет вмешательства в виде переформулирования запроса. Интересно, что некоторые статические стратегии переформулирования, которые составляют значительную часть текущей литературы по переписыванию запросов, имеют более высокое совокупное сожаление, чем базовый подход без переформулирования, что указывает на то, что статические переформулирования могут усугублять галлюцинации. Более того, мы обнаруживаем, что сходящиеся векторы весов регрессионных характеристик для каждого "рукава" подтверждают, что не существует единой оптимальной стратегии переформулирования для всех запросов. В этом контексте направленное переформулирование с использованием семантических характеристик через QueryBandits может вызывать значительные изменения в поведении выходных данных через механизмы прямого прохода, обходя необходимость переобучения или адаптации на основе градиентов.
English
Advanced reasoning capabilities in Large Language Models (LLMs) have caused
higher hallucination prevalence; yet most mitigation work focuses on
after-the-fact filtering rather than shaping the queries that trigger them. We
introduce QueryBandits, a bandit framework that designs rewrite strategies to
maximize a reward model, that encapsulates hallucination propensity based upon
the sensitivities of 17 linguistic features of the input query-and therefore,
proactively steer LLMs away from generating hallucinations. Across 13 diverse
QA benchmarks and 1,050 lexically perturbed queries per dataset, our top
contextual QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a
no-rewrite baseline and also outperforms zero-shot static prompting
("paraphrase" or "expand") by 42.6% and 60.3% respectively. Therefore, we
empirically substantiate the effectiveness of QueryBandits in mitigating
hallucination via the intervention that takes the form of a query rewrite.
Interestingly, certain static prompting strategies, which constitute a
considerable number of current query rewriting literature, have a higher
cumulative regret than the no-rewrite baseline, signifying that static rewrites
can worsen hallucination. Moreover, we discover that the converged per-arm
regression feature weight vectors substantiate that there is no single rewrite
strategy optimal for all queries. In this context, guided rewriting via
exploiting semantic features with QueryBandits can induce significant shifts in
output behavior through forward-pass mechanisms, bypassing the need for
retraining or gradient-based adaptation.