I modelli Pay-Per-Search sono modelli di astensione.

Abstract

I LLM non sono in grado di riconoscere in modo affidabile i limiti della loro conoscenza parametrica e spesso generano risposte allucinate a domande che vanno oltre tali limiti. Al contrario, gli esseri umani riconoscono i propri limiti e possono cercare aiuto esterno per tali domande o astenersi dal rispondere. In questo articolo, introduciamo MASH (Modeling Abstention via Selective Help-seeking), un framework di addestramento che estrae facilmente le astensioni dai LLM. La nostra idea chiave è che qualsiasi richiesta di aiuto esterno da parte di un LLM, come l'uso di strumenti di ricerca, può fungere da proxy per l'astensione se l'aiuto esterno (la ricerca) viene opportunamente penalizzato mentre si premia contemporaneamente l'accuratezza delle risposte. MASH implementa questa idea utilizzando l'apprendimento per rinforzo con una ricompensa pay-per-search. Abbiamo condotto esperimenti su tre dataset di QA ad alta intensità di conoscenza. I nostri risultati mostrano che MASH migliora significativamente le prestazioni di ricerca selettiva rispetto agli approcci di ricerca efficienti precedenti; sui dataset multi-hop, MASH migliora l'accuratezza delle risposte del 7,6%. Inoltre, MASH dimostra una forte capacità di astensione off-the-shelf: è in grado di distinguere tra domande non rispondibili/rispondibili e generare selettivamente risposte per le domande rispondibili, mostrando un comportamento analogo agli approcci specializzati per l'astensione. Sottolineiamo che, contrariamente ai metodi di astensione precedenti, MASH non richiede di predeterminare i limiti della conoscenza per costruire i dati di addestramento. Invece, le astensioni di MASH sono un sottoprodotto dell'addestramento per il compito ausiliario di ricerca selettiva di aiuto. Nel complesso, dimostriamo che l'addestramento di MASH allinea efficacemente l'uso degli strumenti di ricerca con la conoscenza parametrica, che può essere sfruttata con successo per prendere decisioni di astensione.

English

LLMs cannot reliably recognize their parametric knowledge boundaries and often hallucinate answers to outside-of-boundary questions. In contrast, humans recognize their limitations and can either seek external help for such questions or abstain. In this paper, we introduce MASH (Modeling Abstention via Selective Help-seeking), a training framework that readily extracts abstentions from LLMs. Our key idea is that any external help-seeking by an LLM, i.e. search tool use, can serve as a proxy for abstention if the external help (search) is appropriately penalized while simultaneously rewarding answer accuracy. MASH operationalizes this idea using reinforcement learning with a pay-per-search reward. We run experiments on three knowledge-intensive QA datasets. Our results show that MASH substantially improves upon the selective help-seeking performance of prior efficient search approaches; on multi-hop datasets, MASH improves answer accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf abstention -- it can distinguish between unanswerable/answerable questions and selectively generate responses for answerable questions -- showcasing behavior analogous to specialized abstention approaches. We emphasize that contrary to prior abstention methods, MASH does not require pre-determining knowledge boundaries to construct training data. Instead, MASH's abstentions are a by-product of training for the auxiliary selective help-seeking task. Overall, we show that MASH training effectively aligns search tool use with parametric knowledge, which can be successfully leveraged for making abstention decisions.

I modelli Pay-Per-Search sono modelli di astensione.

Pay-Per-Search Models are Abstention Models

Abstract

Support