Não Há Uma Solução Única: QueryBandits para Mitigação de Alucinações

Resumo

As capacidades avançadas de raciocínio em Modelos de Linguagem de Grande Porte (LLMs) têm levado a alucinações mais frequentes; no entanto, a maior parte do trabalho de mitigação foca-se em modelos de código aberto para deteção pós-hoc e edição de parâmetros. A escassez de estudos que se concentram em alucinações em modelos de código fechado é especialmente preocupante, uma vez que estes constituem a vasta maioria dos modelos em implementações institucionais. Apresentamos os QueryBandits, uma estrutura de bandidos contextuais agnóstica ao modelo que aprende adaptativamente online para selecionar a estratégia ótima de reformulação de consultas, aproveitando uma função de recompensa empiricamente validada e calibrada. Em 16 cenários de Pergunta-Resposta, o nosso melhor QueryBandit (Amostragem de Thompson) alcança uma taxa de sucesso de 87,5% sobre uma linha de base Sem Reformulação e supera políticas estáticas de zero-shot (por exemplo, Parafrasear ou Expandir) em 42,6% e 60,3%, respetivamente. Além disso, todos os bandidos contextuais superam bandidos simples em todos os conjuntos de dados, com uma maior variância de características coincidindo com uma maior variância na seleção de braços. Isto corrobora a nossa descoberta de que não existe uma única política de reformulação ótima para todas as consultas. Também descobrimos que certas políticas estáticas incorrem em um arrependimento cumulativo maior do que Sem Reformulação, indicando que uma política de reformulação de consultas inflexível pode piorar as alucinações. Assim, aprender uma política online sobre características semânticas com os QueryBandits pode alterar o comportamento do modelo apenas através de mecanismos de passagem direta (forward-pass), permitindo o seu uso com modelos de código fechado e contornando a necessidade de re-treino ou adaptação baseada em gradientes.

English

Advanced reasoning capabilities in Large Language Models (LLMs) have led to more frequent hallucinations; yet most mitigation work focuses on open-source models for post-hoc detection and parameter editing. The dearth of studies focusing on hallucinations in closed-source models is especially concerning, as they constitute the vast majority of models in institutional deployments. We introduce QueryBandits, a model-agnostic contextual bandit framework that adaptively learns online to select the optimal query-rewrite strategy by leveraging an empirically validated and calibrated reward function. Across 16 QA scenarios, our top QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a No-Rewrite baseline and outperforms zero-shot static policies (e.g., Paraphrase or Expand) by 42.6% and 60.3%, respectively. Moreover, all contextual bandits outperform vanilla bandits across all datasets, with higher feature variance coinciding with greater variance in arm selection. This substantiates our finding that there is no single rewrite policy optimal for all queries. We also discover that certain static policies incur higher cumulative regret than No-Rewrite, indicating that an inflexible query-rewriting policy can worsen hallucinations. Thus, learning an online policy over semantic features with QueryBandits can shift model behavior purely through forward-pass mechanisms, enabling its use with closed-source models and bypassing the need for retraining or gradient-based adaptation.

Não Há Uma Solução Única: QueryBandits para Mitigação de Alucinações

No One Size Fits All: QueryBandits for Hallucination Mitigation

Resumo

Support