ChatPaper.aiChatPaper

Pay-Per-Search-Modelle sind Enthaltungsmodelle.

Pay-Per-Search Models are Abstention Models

October 1, 2025
papers.authors: Mustafa Omer Gul, Claire Cardie, Tanya Goyal
cs.AI

papers.abstract

LLMs können ihre parametrischen Wissensgrenzen nicht zuverlässig erkennen und halluzinieren oft Antworten auf Fragen, die außerhalb dieser Grenzen liegen. Im Gegensatz dazu erkennen Menschen ihre Grenzen und können entweder externe Hilfe für solche Fragen suchen oder sich enthalten. In diesem Artikel stellen wir MASH (Modeling Abstention via Selective Help-seeking) vor, ein Trainingsframework, das Enthaltungen von LLMs leicht extrahiert. Unsere zentrale Idee ist, dass jede externe Hilfesuche eines LLMs, d.h. die Nutzung von Suchwerkzeugen, als Stellvertreter für eine Enthaltung dienen kann, wenn die externe Hilfe (Suche) angemessen bestraft wird, während gleichzeitig die Antwortgenauigkeit belohnt wird. MASH setzt diese Idee mithilfe von Verstärkungslernen mit einer Bezahlung-pro-Suche-Belohnung um. Wir führen Experimente mit drei wissensintensiven QA-Datensätzen durch. Unsere Ergebnisse zeigen, dass MASH die selektive Hilfesuche-Leistung früherer effizienter Suchansätze erheblich verbessert; bei Multi-Hop-Datensätzen steigert MASH die Antwortgenauigkeit um 7,6 %. Darüber hinaus zeigt MASH eine starke Off-the-Shelf-Enthaltung – es kann zwischen unbeantwortbaren und beantwortbaren Fragen unterscheiden und selektiv Antworten für beantwortbare Fragen generieren – und demonstriert damit ein Verhalten, das spezialisierten Enthaltungsansätzen ähnelt. Wir betonen, dass MASH im Gegensatz zu früheren Enthaltungsmethoden keine vorherige Festlegung von Wissensgrenzen zur Erstellung von Trainingsdaten erfordert. Stattdessen sind die Enthaltungen von MASH ein Nebenprodukt des Trainings für die zusätzliche Aufgabe der selektiven Hilfesuche. Insgesamt zeigen wir, dass das MASH-Training die Nutzung von Suchwerkzeugen effektiv mit parametrischem Wissen in Einklang bringt, was erfolgreich für Enthaltungsentscheidungen genutzt werden kann.
English
LLMs cannot reliably recognize their parametric knowledge boundaries and often hallucinate answers to outside-of-boundary questions. In contrast, humans recognize their limitations and can either seek external help for such questions or abstain. In this paper, we introduce MASH (Modeling Abstention via Selective Help-seeking), a training framework that readily extracts abstentions from LLMs. Our key idea is that any external help-seeking by an LLM, i.e. search tool use, can serve as a proxy for abstention if the external help (search) is appropriately penalized while simultaneously rewarding answer accuracy. MASH operationalizes this idea using reinforcement learning with a pay-per-search reward. We run experiments on three knowledge-intensive QA datasets. Our results show that MASH substantially improves upon the selective help-seeking performance of prior efficient search approaches; on multi-hop datasets, MASH improves answer accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf abstention -- it can distinguish between unanswerable/answerable questions and selectively generate responses for answerable questions -- showcasing behavior analogous to specialized abstention approaches. We emphasize that contrary to prior abstention methods, MASH does not require pre-determining knowledge boundaries to construct training data. Instead, MASH's abstentions are a by-product of training for the auxiliary selective help-seeking task. Overall, we show that MASH training effectively aligns search tool use with parametric knowledge, which can be successfully leveraged for making abstention decisions.
PDF52October 2, 2025