Pay-Per-Search-modellen zijn abstentiemodellen.
Pay-Per-Search Models are Abstention Models
October 1, 2025
Auteurs: Mustafa Omer Gul, Claire Cardie, Tanya Goyal
cs.AI
Samenvatting
LLM's kunnen hun parametrische kennisgrenzen niet betrouwbaar herkennen en verzinnen vaak antwoorden op vragen die buiten deze grenzen vallen. Daarentegen herkennen mensen hun beperkingen en kunnen ze voor dergelijke vragen externe hulp zoeken of zich onthouden van een antwoord. In dit artikel introduceren we MASH (Modeling Abstention via Selective Help-seeking), een trainingsframework dat gemakkelijk onthoudingen uit LLM's kan extraheren. Onze kernidee is dat elke externe hulpzoekactie door een LLM, zoals het gebruik van een zoektool, kan dienen als een proxy voor onthouding, mits de externe hulp (zoekactie) op de juiste manier wordt bestraft terwijl de nauwkeurigheid van het antwoord tegelijkertijd wordt beloond. MASH operationaliseert dit idee door middel van reinforcement learning met een pay-per-search beloning.
We voeren experimenten uit op drie kennisintensieve QA-datasets. Onze resultaten laten zien dat MASH aanzienlijk verbetert op het gebied van selectief hulpzoeken in vergelijking met eerdere efficiënte zoekbenaderingen; op multi-hop datasets verbetert MASH de antwoordnauwkeurigheid met 7,6%. Bovendien toont MASH sterke out-of-the-box onthouding – het kan onderscheid maken tussen onbeantwoordbare en beantwoordbare vragen en selectief antwoorden genereren voor beantwoordbare vragen – wat gedrag vertoont dat analoog is aan gespecialiseerde onthoudingsbenaderingen. We benadrukken dat, in tegenstelling tot eerdere onthoudingsmethoden, MASH niet vereist dat kennisgrenzen vooraf worden bepaald om trainingsdata te construeren. In plaats daarvan zijn de onthoudingen van MASH een bijproduct van het trainen voor de aanvullende taak van selectief hulpzoeken. Over het algemeen laten we zien dat MASH-training het gebruik van zoektools effectief afstemt op parametrische kennis, wat succesvol kan worden benut voor het nemen van onthoudingsbeslissingen.
English
LLMs cannot reliably recognize their parametric knowledge boundaries and
often hallucinate answers to outside-of-boundary questions. In contrast, humans
recognize their limitations and can either seek external help for such
questions or abstain. In this paper, we introduce MASH (Modeling Abstention via
Selective Help-seeking), a training framework that readily extracts abstentions
from LLMs. Our key idea is that any external help-seeking by an LLM, i.e.
search tool use, can serve as a proxy for abstention if the external help
(search) is appropriately penalized while simultaneously rewarding answer
accuracy. MASH operationalizes this idea using reinforcement learning with a
pay-per-search reward.
We run experiments on three knowledge-intensive QA datasets. Our results show
that MASH substantially improves upon the selective help-seeking performance of
prior efficient search approaches; on multi-hop datasets, MASH improves answer
accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf
abstention -- it can distinguish between unanswerable/answerable questions and
selectively generate responses for answerable questions -- showcasing behavior
analogous to specialized abstention approaches. We emphasize that contrary to
prior abstention methods, MASH does not require pre-determining knowledge
boundaries to construct training data. Instead, MASH's abstentions are a
by-product of training for the auxiliary selective help-seeking task. Overall,
we show that MASH training effectively aligns search tool use with parametric
knowledge, which can be successfully leveraged for making abstention decisions.