ChatPaper.aiChatPaper

Modelos Pay-Per-Search são Modelos de Abstenção.

Pay-Per-Search Models are Abstention Models

October 1, 2025
Autores: Mustafa Omer Gul, Claire Cardie, Tanya Goyal
cs.AI

Resumo

Os LLMs não conseguem reconhecer de forma confiável os limites de seu conhecimento paramétrico e frequentemente alucinam respostas para perguntas fora desses limites. Em contraste, os humanos reconhecem suas limitações e podem buscar ajuda externa para tais perguntas ou se abster de respondê-las. Neste artigo, introduzimos o MASH (Modeling Abstention via Selective Help-seeking), um framework de treinamento que extrai facilmente abstenções de LLMs. Nossa ideia central é que qualquer busca por ajuda externa por um LLM, ou seja, o uso de ferramentas de busca, pode servir como um proxy para abstenção se a ajuda externa (busca) for adequadamente penalizada enquanto se recompensa a precisão das respostas. O MASH opera essa ideia usando aprendizado por reforço com uma recompensa paga por busca. Realizamos experimentos em três conjuntos de dados de QA intensivos em conhecimento. Nossos resultados mostram que o MASH melhora substancialmente o desempenho de busca seletiva por ajuda em comparação com abordagens de busca eficientes anteriores; em conjuntos de dados multi-hop, o MASH aumenta a precisão das respostas em 7,6%. Além disso, o MASH demonstra uma forte capacidade de abstenção pronta para uso — ele consegue distinguir entre perguntas impossíveis de responder e perguntas respondíveis e gerar respostas seletivamente para perguntas respondíveis — exibindo um comportamento análogo a abordagens especializadas em abstenção. Ressaltamos que, ao contrário de métodos de abstenção anteriores, o MASH não requer a pré-determinação de limites de conhecimento para construir dados de treinamento. Em vez disso, as abstenções do MASH são um subproduto do treinamento para a tarefa auxiliar de busca seletiva por ajuda. No geral, mostramos que o treinamento do MASH alinha efetivamente o uso de ferramentas de busca com o conhecimento paramétrico, o que pode ser aproveitado com sucesso para tomar decisões de abstenção.
English
LLMs cannot reliably recognize their parametric knowledge boundaries and often hallucinate answers to outside-of-boundary questions. In contrast, humans recognize their limitations and can either seek external help for such questions or abstain. In this paper, we introduce MASH (Modeling Abstention via Selective Help-seeking), a training framework that readily extracts abstentions from LLMs. Our key idea is that any external help-seeking by an LLM, i.e. search tool use, can serve as a proxy for abstention if the external help (search) is appropriately penalized while simultaneously rewarding answer accuracy. MASH operationalizes this idea using reinforcement learning with a pay-per-search reward. We run experiments on three knowledge-intensive QA datasets. Our results show that MASH substantially improves upon the selective help-seeking performance of prior efficient search approaches; on multi-hop datasets, MASH improves answer accuracy by 7.6%. Furthermore, MASH demonstrates strong off-the-shelf abstention -- it can distinguish between unanswerable/answerable questions and selectively generate responses for answerable questions -- showcasing behavior analogous to specialized abstention approaches. We emphasize that contrary to prior abstention methods, MASH does not require pre-determining knowledge boundaries to construct training data. Instead, MASH's abstentions are a by-product of training for the auxiliary selective help-seeking task. Overall, we show that MASH training effectively aligns search tool use with parametric knowledge, which can be successfully leveraged for making abstention decisions.
PDF52October 2, 2025