QueryBandits para Mitigação de Alucinações: Explorando Características Semânticas para Reescrever sem Arrependimento
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
August 22, 2025
Autores: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
cs.AI
Resumo
As capacidades avançadas de raciocínio em Modelos de Linguagem de Grande Escala (LLMs) têm levado a uma maior prevalência de alucinações; no entanto, a maioria dos trabalhos de mitigação foca na filtragem após o fato, em vez de moldar as consultas que as desencadeiam. Apresentamos o QueryBandits, um framework baseado em bandidos que projeta estratégias de reescrita para maximizar um modelo de recompensa, que encapsula a propensão a alucinações com base nas sensibilidades de 17 características linguísticas da consulta de entrada e, portanto, direciona proativamente os LLMs para evitar a geração de alucinações. Em 13 benchmarks diversos de Q&A e 1.050 consultas lexicalmente perturbadas por conjunto de dados, nosso QueryBandit contextual superior (Amostragem de Thompson) alcança uma taxa de sucesso de 87,5% em relação a uma linha de base sem reescrita e também supera o prompting estático zero-shot ("parafrasear" ou "expandir") em 42,6% e 60,3%, respectivamente. Assim, comprovamos empiricamente a eficácia do QueryBandits na mitigação de alucinações por meio de uma intervenção que assume a forma de uma reescrita de consulta. Curiosamente, certas estratégias de prompting estático, que constituem uma parcela considerável da literatura atual sobre reescrita de consultas, apresentam um arrependimento cumulativo maior do que a linha de base sem reescrita, indicando que reescritas estáticas podem piorar as alucinações. Além disso, descobrimos que os vetores de peso das características de regressão por braço convergidos corroboram que não há uma única estratégia de reescrita ideal para todas as consultas. Nesse contexto, a reescrita guiada por meio da exploração de características semânticas com o QueryBandits pode induzir mudanças significativas no comportamento de saída por meio de mecanismos de passagem direta, dispensando a necessidade de retreinamento ou adaptação baseada em gradientes.
English
Advanced reasoning capabilities in Large Language Models (LLMs) have caused
higher hallucination prevalence; yet most mitigation work focuses on
after-the-fact filtering rather than shaping the queries that trigger them. We
introduce QueryBandits, a bandit framework that designs rewrite strategies to
maximize a reward model, that encapsulates hallucination propensity based upon
the sensitivities of 17 linguistic features of the input query-and therefore,
proactively steer LLMs away from generating hallucinations. Across 13 diverse
QA benchmarks and 1,050 lexically perturbed queries per dataset, our top
contextual QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a
no-rewrite baseline and also outperforms zero-shot static prompting
("paraphrase" or "expand") by 42.6% and 60.3% respectively. Therefore, we
empirically substantiate the effectiveness of QueryBandits in mitigating
hallucination via the intervention that takes the form of a query rewrite.
Interestingly, certain static prompting strategies, which constitute a
considerable number of current query rewriting literature, have a higher
cumulative regret than the no-rewrite baseline, signifying that static rewrites
can worsen hallucination. Moreover, we discover that the converged per-arm
regression feature weight vectors substantiate that there is no single rewrite
strategy optimal for all queries. In this context, guided rewriting via
exploiting semantic features with QueryBandits can induce significant shifts in
output behavior through forward-pass mechanisms, bypassing the need for
retraining or gradient-based adaptation.