QueryBandits per la Mitigazione delle Allucinazioni: Sfruttare le Caratteristiche Semantiche per Riscritture senza Rimpianti
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
August 22, 2025
Autori: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
cs.AI
Abstract
Le capacità di ragionamento avanzato nei Large Language Models (LLMs) hanno portato a una maggiore prevalenza di allucinazioni; tuttavia, la maggior parte del lavoro di mitigazione si concentra su filtraggi a posteriori piuttosto che sulla modellazione delle query che le scatenano. Introduciamo QueryBandits, un framework basato su bandit che progetta strategie di riscrittura per massimizzare un modello di ricompensa, che incapsula la propensione all'allucinazione basandosi sulle sensibilità di 17 caratteristiche linguistiche della query di input, e quindi orienta proattivamente gli LLMs lontano dalla generazione di allucinazioni. Su 13 benchmark QA diversificati e 1.050 query perturbate lessicalmente per dataset, il nostro QueryBandit contestuale migliore (Thompson Sampling) raggiunge un tasso di successo dell'87,5% rispetto a una baseline senza riscrittura e supera anche il prompting statico zero-shot ("parafrasa" o "espandi") rispettivamente del 42,6% e del 60,3%. Pertanto, dimostriamo empiricamente l'efficacia di QueryBandits nel mitigare le allucinazioni attraverso un intervento che assume la forma di una riscrittura della query. È interessante notare che alcune strategie di prompting statico, che costituiscono una parte considerevole della letteratura attuale sulla riscrittura delle query, hanno un rimpianto cumulativo maggiore rispetto alla baseline senza riscrittura, indicando che le riscritture statiche possono peggiorare le allucinazioni. Inoltre, scopriamo che i vettori di peso delle caratteristiche di regressione convergente per braccio confermano che non esiste una singola strategia di riscrittura ottimale per tutte le query. In questo contesto, la riscrittura guidata sfruttando le caratteristiche semantiche con QueryBandits può indurre significativi cambiamenti nel comportamento dell'output attraverso meccanismi di forward-pass, bypassando la necessità di riaddestramento o adattamento basato su gradienti.
English
Advanced reasoning capabilities in Large Language Models (LLMs) have caused
higher hallucination prevalence; yet most mitigation work focuses on
after-the-fact filtering rather than shaping the queries that trigger them. We
introduce QueryBandits, a bandit framework that designs rewrite strategies to
maximize a reward model, that encapsulates hallucination propensity based upon
the sensitivities of 17 linguistic features of the input query-and therefore,
proactively steer LLMs away from generating hallucinations. Across 13 diverse
QA benchmarks and 1,050 lexically perturbed queries per dataset, our top
contextual QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a
no-rewrite baseline and also outperforms zero-shot static prompting
("paraphrase" or "expand") by 42.6% and 60.3% respectively. Therefore, we
empirically substantiate the effectiveness of QueryBandits in mitigating
hallucination via the intervention that takes the form of a query rewrite.
Interestingly, certain static prompting strategies, which constitute a
considerable number of current query rewriting literature, have a higher
cumulative regret than the no-rewrite baseline, signifying that static rewrites
can worsen hallucination. Moreover, we discover that the converged per-arm
regression feature weight vectors substantiate that there is no single rewrite
strategy optimal for all queries. In this context, guided rewriting via
exploiting semantic features with QueryBandits can induce significant shifts in
output behavior through forward-pass mechanisms, bypassing the need for
retraining or gradient-based adaptation.