I modelli Pay-Per-Search sono modelli di astensione.
Pay-Per-Search Models are Abstention Models
October 1, 2025
Autori: Mustafa Omer Gul, Claire Cardie, Tanya Goyal
cs.AI
Abstract
I LLM non sono in grado di riconoscere in modo affidabile i limiti della loro conoscenza parametrica e spesso generano risposte allucinate a domande che vanno oltre tali limiti. Al contrario, gli esseri umani riconoscono i propri limiti e possono cercare aiuto esterno per tali domande o astenersi dal rispondere. In questo articolo, introduciamo MASH (Modeling Abstention via Selective Help-seeking), un framework di addestramento che estrae facilmente le astensioni dai LLM. La nostra idea chiave è che qualsiasi richiesta di aiuto esterno da parte di un LLM, come l'uso di strumenti di ricerca, può fungere da proxy per l'astensione se l'aiuto esterno (la ricerca) viene opportunamente penalizzato mentre si premia contemporaneamente l'accuratezza delle risposte. MASH implementa questa idea utilizzando l'apprendimento per rinforzo con una ricompensa pay-per-search.
Abbiamo condotto esperimenti su tre dataset di QA ad alta intensità di conoscenza. I nostri risultati mostrano che MASH migliora significativamente le prestazioni di ricerca selettiva rispetto agli approcci di ricerca efficienti precedenti; sui dataset multi-hop, MASH migliora l'accuratezza delle risposte del 7,6%. Inoltre, MASH dimostra una forte capacità di astensione off-the-shelf: è in grado di distinguere tra domande non rispondibili/rispondibili e generare selettivamente risposte per le domande rispondibili, mostrando un comportamento analogo agli approcci specializzati per l'astensione. Sottolineiamo che, contrariamente ai metodi di astensione precedenti, MASH non richiede di predeterminare i limiti della conoscenza per costruire i dati di addestramento. Invece, le astensioni di MASH sono un sottoprodotto dell'addestramento per il compito ausiliario di ricerca selettiva di aiuto. Nel complesso, dimostriamo che l'addestramento di MASH allinea efficacemente l'uso degli strumenti di ricerca con la conoscenza parametrica, che può essere sfruttata con successo per prendere decisioni di astensione.
English
LLMs cannot reliably recognize their parametric knowledge boundaries and
often hallucinate answers to outside-of-boundary questions. In contrast, humans
recognize their limitations and can either seek external help for such
questions or abstain. In this paper, we introduce MASH (Modeling Abstention via
Selective Help-seeking), a training framework that readily extracts abstentions
from LLMs. Our key idea is that any external help-seeking by an LLM, i.e.
search tool use, can serve as a proxy for abstention if the external help
(search) is appropriately penalized while simultaneously rewarding answer
accuracy. MASH operationalizes this idea using reinforcement learning with a
pay-per-search reward.
We run experiments on three knowledge-intensive QA datasets. Our results show
that MASH substantially improves upon the selective help-seeking performance of
prior efficient search approaches; on multi-hop datasets, MASH improves answer
accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf
abstention -- it can distinguish between unanswerable/answerable questions and
selectively generate responses for answerable questions -- showcasing behavior
analogous to specialized abstention approaches. We emphasize that contrary to
prior abstention methods, MASH does not require pre-determining knowledge
boundaries to construct training data. Instead, MASH's abstentions are a
by-product of training for the auxiliary selective help-seeking task. Overall,
we show that MASH training effectively aligns search tool use with parametric
knowledge, which can be successfully leveraged for making abstention decisions.