万能策は存在しない:幻覚緩和のためのクエリバンディット
No One Size Fits All: QueryBandits for Hallucination Mitigation
February 23, 2026
著者: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
cs.AI
要旨
大規模言語モデル(LLM)における高度な推論能力の進展に伴い、幻覚(ハルシネーション)の発生が頻繁になっている。しかし、その緩和策に関する研究の大半はオープンソースモデルに焦点を当て、事後的検出やパラメータ編集に集中している。クローズドソースモデルにおける幻覚に注目した研究が不足していることは特に懸念材料である。なぜなら、実際の組織導入においてはクローズドソースモデルが圧倒的多数を占めるからだ。本論文ではQueryBanditsを提案する。これはモデルに依存しない文脈的バンディットフレームワークであり、実証的に検証され較正された報酬関数を活用して、最適なクエリ書き換え戦略をオンラインで適応的に学習する。16の質問応答シナリオにおける評価では、我々の最良のQueryBandit(トンプソン抽出法)が、書き換えなしベースラインに対して87.5%の勝率を達成し、ゼロショット静的ポリシー(言い換えや拡張など)をそれぞれ42.6%、60.3%上回った。さらに、全ての文脈的バンディットは、すべてのデータセットにおいて単純なバンディットを性能で凌駕し、特徴量の分散が大きいほど選択肢(アーム)選択の分散も大きくなることを確認した。これは、あらゆるクエリに対して最適な単一の書き換えポリシーが存在しないという我々の発見を裏付ける。また、特定の静的ポリシーは「書き換えなし」よりも高い累積後悔を招くことから、柔軟性のないクエリ書き換えポリシーが幻覚を悪化させ得ることも明らかになった。したがって、QueryBanditsを用いて意味的特徴量に対してオンラインポリシーを学習することは、順伝搬メカニズムのみを通じてモデルの振る舞いを変化させることが可能であり、クローズドソースモデルでの利用を可能にするとともに、再学習や勾配ベースの適応の必要性を回避するものである。
English
Advanced reasoning capabilities in Large Language Models (LLMs) have led to more frequent hallucinations; yet most mitigation work focuses on open-source models for post-hoc detection and parameter editing. The dearth of studies focusing on hallucinations in closed-source models is especially concerning, as they constitute the vast majority of models in institutional deployments. We introduce QueryBandits, a model-agnostic contextual bandit framework that adaptively learns online to select the optimal query-rewrite strategy by leveraging an empirically validated and calibrated reward function. Across 16 QA scenarios, our top QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a No-Rewrite baseline and outperforms zero-shot static policies (e.g., Paraphrase or Expand) by 42.6% and 60.3%, respectively. Moreover, all contextual bandits outperform vanilla bandits across all datasets, with higher feature variance coinciding with greater variance in arm selection. This substantiates our finding that there is no single rewrite policy optimal for all queries. We also discover that certain static policies incur higher cumulative regret than No-Rewrite, indicating that an inflexible query-rewriting policy can worsen hallucinations. Thus, learning an online policy over semantic features with QueryBandits can shift model behavior purely through forward-pass mechanisms, enabling its use with closed-source models and bypassing the need for retraining or gradient-based adaptation.