Не существует универсального решения: QueryBandits для снижения галлюцинаций

Аннотация

Повышение уровня логических рассуждений в больших языковых моделях (БЯМ) привело к учащению случаев галлюцинаций, однако большинство работ по их устранению сосредоточено на моделях с открытым исходным кодом для последующего обнаружения и параметрического редактирования. Недостаток исследований, посвящённых галлюцинациям в моделях с закрытым исходным кодом, вызывает особую озабоченность, поскольку они составляют подавляющее большинство моделей, развёрнутых в организациях. Мы представляем QueryBandits — модель-агностичную контекстуальную бандитскую систему, которая адаптивно обучается в онлайн-режиме выбирать оптимальную стратегию переформулировки запросов, используя эмпирически проверенную и калиброванную функцию вознаграждения. В 16 сценариях вопросов и ответов наша лучшая система QueryBandits (сэмплирование Томпсона) демонстрирует 87,5% превышения эффективности над базовым уровнем без переформулировки и превосходит статические политики zero-shot (например, Paraphrase или Expand) на 42,6% и 60,3% соответственно. Более того, все контекстуальные бандиты превзошли классические бандитские системы на всех наборах данных, причём большая дисперсия признаков совпала с большим разбросом в выборе действий. Это подтверждает наш вывод о том, что не существует единой оптимальной политики переформулировки для всех запросов. Мы также обнаружили, что некоторые статические политики приводят к более высокому совокупному сожалению, чем отсутствие переформулировки, что свидетельствует: негибкая политика переформулировки запросов может усугублять галлюцинации. Таким образом, обучение онлайн-политики на основе семантических признаков с помощью QueryBandits позволяет изменять поведение модели исключительно за счёт механизмов прямого прохода, что делает возможным её использование с моделями закрытого типа и устраняет необходимость в переобучении или градиентной адаптации.

English

Advanced reasoning capabilities in Large Language Models (LLMs) have led to more frequent hallucinations; yet most mitigation work focuses on open-source models for post-hoc detection and parameter editing. The dearth of studies focusing on hallucinations in closed-source models is especially concerning, as they constitute the vast majority of models in institutional deployments. We introduce QueryBandits, a model-agnostic contextual bandit framework that adaptively learns online to select the optimal query-rewrite strategy by leveraging an empirically validated and calibrated reward function. Across 16 QA scenarios, our top QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a No-Rewrite baseline and outperforms zero-shot static policies (e.g., Paraphrase or Expand) by 42.6% and 60.3%, respectively. Moreover, all contextual bandits outperform vanilla bandits across all datasets, with higher feature variance coinciding with greater variance in arm selection. This substantiates our finding that there is no single rewrite policy optimal for all queries. We also discover that certain static policies incur higher cumulative regret than No-Rewrite, indicating that an inflexible query-rewriting policy can worsen hallucinations. Thus, learning an online policy over semantic features with QueryBandits can shift model behavior purely through forward-pass mechanisms, enabling its use with closed-source models and bypassing the need for retraining or gradient-based adaptation.

Не существует универсального решения: QueryBandits для снижения галлюцинаций

No One Size Fits All: QueryBandits for Hallucination Mitigation

Аннотация

Support