Pay-Per-Search-Modelle sind Enthaltungsmodelle.
Pay-Per-Search Models are Abstention Models
October 1, 2025
papers.authors: Mustafa Omer Gul, Claire Cardie, Tanya Goyal
cs.AI
papers.abstract
LLMs können ihre parametrischen Wissensgrenzen nicht zuverlässig erkennen und halluzinieren oft Antworten auf Fragen, die außerhalb dieser Grenzen liegen. Im Gegensatz dazu erkennen Menschen ihre Grenzen und können entweder externe Hilfe für solche Fragen suchen oder sich enthalten. In diesem Artikel stellen wir MASH (Modeling Abstention via Selective Help-seeking) vor, ein Trainingsframework, das Enthaltungen von LLMs leicht extrahiert. Unsere zentrale Idee ist, dass jede externe Hilfesuche eines LLMs, d.h. die Nutzung von Suchwerkzeugen, als Stellvertreter für eine Enthaltung dienen kann, wenn die externe Hilfe (Suche) angemessen bestraft wird, während gleichzeitig die Antwortgenauigkeit belohnt wird. MASH setzt diese Idee mithilfe von Verstärkungslernen mit einer Bezahlung-pro-Suche-Belohnung um.
Wir führen Experimente mit drei wissensintensiven QA-Datensätzen durch. Unsere Ergebnisse zeigen, dass MASH die selektive Hilfesuche-Leistung früherer effizienter Suchansätze erheblich verbessert; bei Multi-Hop-Datensätzen steigert MASH die Antwortgenauigkeit um 7,6 %. Darüber hinaus zeigt MASH eine starke Off-the-Shelf-Enthaltung – es kann zwischen unbeantwortbaren und beantwortbaren Fragen unterscheiden und selektiv Antworten für beantwortbare Fragen generieren – und demonstriert damit ein Verhalten, das spezialisierten Enthaltungsansätzen ähnelt. Wir betonen, dass MASH im Gegensatz zu früheren Enthaltungsmethoden keine vorherige Festlegung von Wissensgrenzen zur Erstellung von Trainingsdaten erfordert. Stattdessen sind die Enthaltungen von MASH ein Nebenprodukt des Trainings für die zusätzliche Aufgabe der selektiven Hilfesuche. Insgesamt zeigen wir, dass das MASH-Training die Nutzung von Suchwerkzeugen effektiv mit parametrischem Wissen in Einklang bringt, was erfolgreich für Enthaltungsentscheidungen genutzt werden kann.
English
LLMs cannot reliably recognize their parametric knowledge boundaries and
often hallucinate answers to outside-of-boundary questions. In contrast, humans
recognize their limitations and can either seek external help for such
questions or abstain. In this paper, we introduce MASH (Modeling Abstention via
Selective Help-seeking), a training framework that readily extracts abstentions
from LLMs. Our key idea is that any external help-seeking by an LLM, i.e.
search tool use, can serve as a proxy for abstention if the external help
(search) is appropriately penalized while simultaneously rewarding answer
accuracy. MASH operationalizes this idea using reinforcement learning with a
pay-per-search reward.
We run experiments on three knowledge-intensive QA datasets. Our results show
that MASH substantially improves upon the selective help-seeking performance of
prior efficient search approaches; on multi-hop datasets, MASH improves answer
accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf
abstention -- it can distinguish between unanswerable/answerable questions and
selectively generate responses for answerable questions -- showcasing behavior
analogous to specialized abstention approaches. We emphasize that contrary to
prior abstention methods, MASH does not require pre-determining knowledge
boundaries to construct training data. Instead, MASH's abstentions are a
by-product of training for the auxiliary selective help-seeking task. Overall,
we show that MASH training effectively aligns search tool use with parametric
knowledge, which can be successfully leveraged for making abstention decisions.