Les modèles de paiement par recherche sont des modèles d'abstention.
Pay-Per-Search Models are Abstention Models
October 1, 2025
papers.authors: Mustafa Omer Gul, Claire Cardie, Tanya Goyal
cs.AI
papers.abstract
Les LLM (modèles de langage à grande échelle) ne peuvent pas reconnaître de manière fiable les limites de leurs connaissances paramétriques et hallucinent souvent des réponses à des questions hors de ces limites. En revanche, les humains reconnaissent leurs limites et peuvent soit chercher de l'aide externe pour de telles questions, soit s'abstenir de répondre. Dans cet article, nous présentons MASH (Modeling Abstention via Selective Help-seeking), un cadre d'entraînement qui permet d'extraire facilement des abstentions des LLM. Notre idée clé est que toute recherche d'aide externe par un LLM, c'est-à-dire l'utilisation d'outils de recherche, peut servir de proxy pour l'abstention si l'aide externe (la recherche) est pénalisée de manière appropriée tout en récompensant simultanément la précision des réponses. MASH opérationnalise cette idée en utilisant l'apprentissage par renforcement avec une rémunération au coup par recherche.
Nous menons des expériences sur trois ensembles de données de questions-réponses à forte intensité de connaissances. Nos résultats montrent que MASH améliore considérablement les performances de recherche sélective d'aide par rapport aux approches de recherche efficaces précédentes ; sur les ensembles de données multi-sauts, MASH améliore la précision des réponses de 7,6 %. De plus, MASH démontre une forte capacité d'abstention prête à l'emploi — il peut distinguer entre les questions sans réponse et les questions auxquelles on peut répondre, et générer sélectivement des réponses pour les questions auxquelles on peut répondre — montrant un comportement analogue aux approches spécialisées d'abstention. Nous soulignons que, contrairement aux méthodes d'abstention précédentes, MASH ne nécessite pas de prédéterminer les limites de connaissances pour construire des données d'entraînement. Au lieu de cela, les abstentions de MASH sont un sous-produit de l'entraînement pour la tâche auxiliaire de recherche sélective d'aide. Globalement, nous montrons que l'entraînement MASH aligne efficacement l'utilisation des outils de recherche avec les connaissances paramétriques, ce qui peut être exploité avec succès pour prendre des décisions d'abstention.
English
LLMs cannot reliably recognize their parametric knowledge boundaries and
often hallucinate answers to outside-of-boundary questions. In contrast, humans
recognize their limitations and can either seek external help for such
questions or abstain. In this paper, we introduce MASH (Modeling Abstention via
Selective Help-seeking), a training framework that readily extracts abstentions
from LLMs. Our key idea is that any external help-seeking by an LLM, i.e.
search tool use, can serve as a proxy for abstention if the external help
(search) is appropriately penalized while simultaneously rewarding answer
accuracy. MASH operationalizes this idea using reinforcement learning with a
pay-per-search reward.
We run experiments on three knowledge-intensive QA datasets. Our results show
that MASH substantially improves upon the selective help-seeking performance of
prior efficient search approaches; on multi-hop datasets, MASH improves answer
accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf
abstention -- it can distinguish between unanswerable/answerable questions and
selectively generate responses for answerable questions -- showcasing behavior
analogous to specialized abstention approaches. We emphasize that contrary to
prior abstention methods, MASH does not require pre-determining knowledge
boundaries to construct training data. Instead, MASH's abstentions are a
by-product of training for the auxiliary selective help-seeking task. Overall,
we show that MASH training effectively aligns search tool use with parametric
knowledge, which can be successfully leveraged for making abstention decisions.