Pay-Per-Search-modellen zijn abstentiemodellen.

Samenvatting

LLM's kunnen hun parametrische kennisgrenzen niet betrouwbaar herkennen en verzinnen vaak antwoorden op vragen die buiten deze grenzen vallen. Daarentegen herkennen mensen hun beperkingen en kunnen ze voor dergelijke vragen externe hulp zoeken of zich onthouden van een antwoord. In dit artikel introduceren we MASH (Modeling Abstention via Selective Help-seeking), een trainingsframework dat gemakkelijk onthoudingen uit LLM's kan extraheren. Onze kernidee is dat elke externe hulpzoekactie door een LLM, zoals het gebruik van een zoektool, kan dienen als een proxy voor onthouding, mits de externe hulp (zoekactie) op de juiste manier wordt bestraft terwijl de nauwkeurigheid van het antwoord tegelijkertijd wordt beloond. MASH operationaliseert dit idee door middel van reinforcement learning met een pay-per-search beloning. We voeren experimenten uit op drie kennisintensieve QA-datasets. Onze resultaten laten zien dat MASH aanzienlijk verbetert op het gebied van selectief hulpzoeken in vergelijking met eerdere efficiënte zoekbenaderingen; op multi-hop datasets verbetert MASH de antwoordnauwkeurigheid met 7,6%. Bovendien toont MASH sterke out-of-the-box onthouding – het kan onderscheid maken tussen onbeantwoordbare en beantwoordbare vragen en selectief antwoorden genereren voor beantwoordbare vragen – wat gedrag vertoont dat analoog is aan gespecialiseerde onthoudingsbenaderingen. We benadrukken dat, in tegenstelling tot eerdere onthoudingsmethoden, MASH niet vereist dat kennisgrenzen vooraf worden bepaald om trainingsdata te construeren. In plaats daarvan zijn de onthoudingen van MASH een bijproduct van het trainen voor de aanvullende taak van selectief hulpzoeken. Over het algemeen laten we zien dat MASH-training het gebruik van zoektools effectief afstemt op parametrische kennis, wat succesvol kan worden benut voor het nemen van onthoudingsbeslissingen.

English

LLMs cannot reliably recognize their parametric knowledge boundaries and often hallucinate answers to outside-of-boundary questions. In contrast, humans recognize their limitations and can either seek external help for such questions or abstain. In this paper, we introduce MASH (Modeling Abstention via Selective Help-seeking), a training framework that readily extracts abstentions from LLMs. Our key idea is that any external help-seeking by an LLM, i.e. search tool use, can serve as a proxy for abstention if the external help (search) is appropriately penalized while simultaneously rewarding answer accuracy. MASH operationalizes this idea using reinforcement learning with a pay-per-search reward. We run experiments on three knowledge-intensive QA datasets. Our results show that MASH substantially improves upon the selective help-seeking performance of prior efficient search approaches; on multi-hop datasets, MASH improves answer accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf abstention -- it can distinguish between unanswerable/answerable questions and selectively generate responses for answerable questions -- showcasing behavior analogous to specialized abstention approaches. We emphasize that contrary to prior abstention methods, MASH does not require pre-determining knowledge boundaries to construct training data. Instead, MASH's abstentions are a by-product of training for the auxiliary selective help-seeking task. Overall, we show that MASH training effectively aligns search tool use with parametric knowledge, which can be successfully leveraged for making abstention decisions.

Pay-Per-Search-modellen zijn abstentiemodellen.

Pay-Per-Search Models are Abstention Models

Samenvatting

Support