QueryBandits voor Hallucinatiebeperking: Benutten van Semantische Kenmerken voor No-Regret Herschrijven
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting
August 22, 2025
Auteurs: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
cs.AI
Samenvatting
Geavanceerde redeneervaardigheden in Large Language Models (LLMs) hebben geleid tot een hogere prevalentie van hallucinaties; toch richt het meeste mitigatiewerk zich op achteraf filteren in plaats van het vormgeven van de queries die deze veroorzaken. Wij introduceren QueryBandits, een bandit-framework dat herschrijfstrategieën ontwerpt om een beloningsmodel te maximaliseren, dat de neiging tot hallucinatie weergeeft op basis van de gevoeligheden van 17 linguïstische kenmerken van de input query—en daarmee proactief LLMs wegstuurt van het genereren van hallucinaties. Over 13 diverse QA-benchmarks en 1.050 lexicaal verstoorde queries per dataset, behaalt onze top contextuele QueryBandit (Thompson Sampling) een winstpercentage van 87,5% ten opzichte van een baseline zonder herschrijven en overtreft het ook zero-shot statisch prompten ("parafraseren" of "uitbreiden") met respectievelijk 42,6% en 60,3%. Daarom onderbouwen we empirisch de effectiviteit van QueryBandits in het verminderen van hallucinatie via de interventie die de vorm aanneemt van een query-herschrijving. Interessant is dat bepaalde statische promptstrategieën, die een aanzienlijk deel van de huidige literatuur over query-herschrijven uitmaken, een hogere cumulatieve spijt hebben dan de baseline zonder herschrijven, wat aangeeft dat statische herschrijvingen hallucinatie kunnen verergeren. Bovendien ontdekken we dat de geconvergeerde per-arm regressie kenmerkgewichtvectoren aantonen dat er geen enkele herschrijfstrategie optimaal is voor alle queries. In deze context kan geleid herschrijven via het benutten van semantische kenmerken met QueryBandits aanzienlijke verschuivingen in uitvoergedrag teweegbrengen door forward-pass mechanismen, waardoor de noodzaak voor hertraining of gradient-gebaseerde aanpassing wordt omzeild.
English
Advanced reasoning capabilities in Large Language Models (LLMs) have caused
higher hallucination prevalence; yet most mitigation work focuses on
after-the-fact filtering rather than shaping the queries that trigger them. We
introduce QueryBandits, a bandit framework that designs rewrite strategies to
maximize a reward model, that encapsulates hallucination propensity based upon
the sensitivities of 17 linguistic features of the input query-and therefore,
proactively steer LLMs away from generating hallucinations. Across 13 diverse
QA benchmarks and 1,050 lexically perturbed queries per dataset, our top
contextual QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a
no-rewrite baseline and also outperforms zero-shot static prompting
("paraphrase" or "expand") by 42.6% and 60.3% respectively. Therefore, we
empirically substantiate the effectiveness of QueryBandits in mitigating
hallucination via the intervention that takes the form of a query rewrite.
Interestingly, certain static prompting strategies, which constitute a
considerable number of current query rewriting literature, have a higher
cumulative regret than the no-rewrite baseline, signifying that static rewrites
can worsen hallucination. Moreover, we discover that the converged per-arm
regression feature weight vectors substantiate that there is no single rewrite
strategy optimal for all queries. In this context, guided rewriting via
exploiting semantic features with QueryBandits can induce significant shifts in
output behavior through forward-pass mechanisms, bypassing the need for
retraining or gradient-based adaptation.