ChatPaper.aiChatPaper

QueryBandits zur Halluzinationsminderung: Ausnutzung semantischer Merkmale für verlustfreies Umschreiben

QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

August 22, 2025
papers.authors: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
cs.AI

papers.abstract

Fortgeschrittene Fähigkeiten zur logischen Schlussfolgerung in großen Sprachmodellen (LLMs) haben zu einer höheren Prävalenz von Halluzinationen geführt; dennoch konzentriert sich die Mehrheit der Arbeiten zur Minderung dieser Probleme auf nachträgliche Filterung anstatt auf die Gestaltung der Anfragen, die sie auslösen. Wir stellen QueryBandits vor, ein Bandit-Framework, das Strategien zur Umformulierung entwickelt, um ein Belohnungsmodell zu maximieren, das die Neigung zu Halluzinationen auf der Grundlage der Empfindlichkeiten von 17 linguistischen Merkmalen der Eingabeanfrage erfasst – und somit LLMs proaktiv davon abhält, Halluzinationen zu generieren. Über 13 diverse QA-Benchmarks und 1.050 lexikalisch veränderte Anfragen pro Datensatz hinweg erreicht unser top-kontextueller QueryBandit (Thompson Sampling) eine Gewinnrate von 87,5 % gegenüber einer Baseline ohne Umformulierung und übertrifft auch Zero-Shot-statische Prompting-Strategien („paraphrasieren“ oder „erweitern“) um 42,6 % bzw. 60,3 %. Somit belegen wir empirisch die Wirksamkeit von QueryBandits bei der Minderung von Halluzinationen durch eine Intervention in Form einer Anfrageumformulierung. Interessanterweise weisen bestimmte statische Prompting-Strategien, die einen beträchtlichen Teil der aktuellen Literatur zur Anfrageumformulierung ausmachen, ein höheres kumulatives Bedauern auf als die Baseline ohne Umformulierung, was darauf hindeutet, dass statische Umformulierungen Halluzinationen verschlimmern können. Darüber hinaus stellen wir fest, dass die konvergierten Gewichtsvektoren der Regressionsmerkmale pro Arm belegen, dass es keine einzelne Umformulierungsstrategie gibt, die für alle Anfragen optimal ist. In diesem Kontext kann eine geführte Umformulierung durch die Ausnutzung semantischer Merkmale mit QueryBandits signifikante Verhaltensänderungen in der Ausgabe durch Forward-Pass-Mechanismen bewirken, wodurch die Notwendigkeit für ein erneutes Training oder eine gradientenbasierte Anpassung entfällt.
English
Advanced reasoning capabilities in Large Language Models (LLMs) have caused higher hallucination prevalence; yet most mitigation work focuses on after-the-fact filtering rather than shaping the queries that trigger them. We introduce QueryBandits, a bandit framework that designs rewrite strategies to maximize a reward model, that encapsulates hallucination propensity based upon the sensitivities of 17 linguistic features of the input query-and therefore, proactively steer LLMs away from generating hallucinations. Across 13 diverse QA benchmarks and 1,050 lexically perturbed queries per dataset, our top contextual QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a no-rewrite baseline and also outperforms zero-shot static prompting ("paraphrase" or "expand") by 42.6% and 60.3% respectively. Therefore, we empirically substantiate the effectiveness of QueryBandits in mitigating hallucination via the intervention that takes the form of a query rewrite. Interestingly, certain static prompting strategies, which constitute a considerable number of current query rewriting literature, have a higher cumulative regret than the no-rewrite baseline, signifying that static rewrites can worsen hallucination. Moreover, we discover that the converged per-arm regression feature weight vectors substantiate that there is no single rewrite strategy optimal for all queries. In this context, guided rewriting via exploiting semantic features with QueryBandits can induce significant shifts in output behavior through forward-pass mechanisms, bypassing the need for retraining or gradient-based adaptation.
PDF21August 27, 2025