Модели с оплатой за поиск являются моделями воздержания.
Pay-Per-Search Models are Abstention Models
October 1, 2025
Авторы: Mustafa Omer Gul, Claire Cardie, Tanya Goyal
cs.AI
Аннотация
Крупные языковые модели (LLM) не могут надежно распознавать границы своих параметрических знаний и часто генерируют вымышленные ответы на вопросы, выходящие за эти границы. В отличие от них, люди осознают свои ограничения и могут либо обратиться за внешней помощью в таких случаях, либо воздержаться от ответа. В данной статье мы представляем MASH (Modeling Abstention via Selective Help-seeking) — фреймворк для обучения, который легко извлекает воздержание от ответа из LLM. Основная идея заключается в том, что любое обращение LLM за внешней помощью, например, использование поискового инструмента, может служить заменой воздержанию, если внешняя помощь (поиск) соответствующим образом штрафуется, одновременно поощряя точность ответа. MASH реализует эту идею с помощью обучения с подкреплением и вознаграждения за каждый поиск.
Мы провели эксперименты на трех наборах данных, ориентированных на вопросы, требующие глубоких знаний. Результаты показывают, что MASH значительно улучшает производительность выборочного обращения за помощью по сравнению с предыдущими эффективными подходами к поиску; на наборах данных с многошаговыми вопросами MASH повышает точность ответов на 7,6%. Кроме того, MASH демонстрирует сильное "из коробки" воздержание — он может различать вопросы, на которые невозможно ответить, и те, на которые ответ возможен, и выборочно генерировать ответы только на последние, демонстрируя поведение, аналогичное специализированным подходам к воздержанию. Мы подчеркиваем, что в отличие от предыдущих методов воздержания, MASH не требует предварительного определения границ знаний для создания обучающих данных. Вместо этого воздержание MASH является побочным продуктом обучения для вспомогательной задачи выборочного обращения за помощью. В целом, мы показываем, что обучение MASH эффективно согласует использование поисковых инструментов с параметрическими знаниями, что может быть успешно использовано для принятия решений о воздержании.
English
LLMs cannot reliably recognize their parametric knowledge boundaries and
often hallucinate answers to outside-of-boundary questions. In contrast, humans
recognize their limitations and can either seek external help for such
questions or abstain. In this paper, we introduce MASH (Modeling Abstention via
Selective Help-seeking), a training framework that readily extracts abstentions
from LLMs. Our key idea is that any external help-seeking by an LLM, i.e.
search tool use, can serve as a proxy for abstention if the external help
(search) is appropriately penalized while simultaneously rewarding answer
accuracy. MASH operationalizes this idea using reinforcement learning with a
pay-per-search reward.
We run experiments on three knowledge-intensive QA datasets. Our results show
that MASH substantially improves upon the selective help-seeking performance of
prior efficient search approaches; on multi-hop datasets, MASH improves answer
accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf
abstention -- it can distinguish between unanswerable/answerable questions and
selectively generate responses for answerable questions -- showcasing behavior
analogous to specialized abstention approaches. We emphasize that contrary to
prior abstention methods, MASH does not require pre-determining knowledge
boundaries to construct training data. Instead, MASH's abstentions are a
by-product of training for the auxiliary selective help-seeking task. Overall,
we show that MASH training effectively aligns search tool use with parametric
knowledge, which can be successfully leveraged for making abstention decisions.