Les modèles de paiement par recherche sont des modèles d'abstention.

papers.abstract

Les LLM (modèles de langage à grande échelle) ne peuvent pas reconnaître de manière fiable les limites de leurs connaissances paramétriques et hallucinent souvent des réponses à des questions hors de ces limites. En revanche, les humains reconnaissent leurs limites et peuvent soit chercher de l'aide externe pour de telles questions, soit s'abstenir de répondre. Dans cet article, nous présentons MASH (Modeling Abstention via Selective Help-seeking), un cadre d'entraînement qui permet d'extraire facilement des abstentions des LLM. Notre idée clé est que toute recherche d'aide externe par un LLM, c'est-à-dire l'utilisation d'outils de recherche, peut servir de proxy pour l'abstention si l'aide externe (la recherche) est pénalisée de manière appropriée tout en récompensant simultanément la précision des réponses. MASH opérationnalise cette idée en utilisant l'apprentissage par renforcement avec une rémunération au coup par recherche. Nous menons des expériences sur trois ensembles de données de questions-réponses à forte intensité de connaissances. Nos résultats montrent que MASH améliore considérablement les performances de recherche sélective d'aide par rapport aux approches de recherche efficaces précédentes ; sur les ensembles de données multi-sauts, MASH améliore la précision des réponses de 7,6 %. De plus, MASH démontre une forte capacité d'abstention prête à l'emploi — il peut distinguer entre les questions sans réponse et les questions auxquelles on peut répondre, et générer sélectivement des réponses pour les questions auxquelles on peut répondre — montrant un comportement analogue aux approches spécialisées d'abstention. Nous soulignons que, contrairement aux méthodes d'abstention précédentes, MASH ne nécessite pas de prédéterminer les limites de connaissances pour construire des données d'entraînement. Au lieu de cela, les abstentions de MASH sont un sous-produit de l'entraînement pour la tâche auxiliaire de recherche sélective d'aide. Globalement, nous montrons que l'entraînement MASH aligne efficacement l'utilisation des outils de recherche avec les connaissances paramétriques, ce qui peut être exploité avec succès pour prendre des décisions d'abstention.

English

LLMs cannot reliably recognize their parametric knowledge boundaries and often hallucinate answers to outside-of-boundary questions. In contrast, humans recognize their limitations and can either seek external help for such questions or abstain. In this paper, we introduce MASH (Modeling Abstention via Selective Help-seeking), a training framework that readily extracts abstentions from LLMs. Our key idea is that any external help-seeking by an LLM, i.e. search tool use, can serve as a proxy for abstention if the external help (search) is appropriately penalized while simultaneously rewarding answer accuracy. MASH operationalizes this idea using reinforcement learning with a pay-per-search reward. We run experiments on three knowledge-intensive QA datasets. Our results show that MASH substantially improves upon the selective help-seeking performance of prior efficient search approaches; on multi-hop datasets, MASH improves answer accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf abstention -- it can distinguish between unanswerable/answerable questions and selectively generate responses for answerable questions -- showcasing behavior analogous to specialized abstention approaches. We emphasize that contrary to prior abstention methods, MASH does not require pre-determining knowledge boundaries to construct training data. Instead, MASH's abstentions are a by-product of training for the auxiliary selective help-seeking task. Overall, we show that MASH training effectively aligns search tool use with parametric knowledge, which can be successfully leveraged for making abstention decisions.

Les modèles de paiement par recherche sont des modèles d'abstention.

Pay-Per-Search Models are Abstention Models

papers.abstract

Support