AbstentionBench: Redeneer-LLM's falen bij onbeantwoordbare vragen
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions
June 10, 2025
Auteurs: Polina Kirichenko, Mark Ibrahim, Kamalika Chaudhuri, Samuel J. Bell
cs.AI
Samenvatting
Om Large Language Models (LLMs) betrouwbaar in te kunnen zetten in zowel alledaagse als hoogrisicodomeinen, is het even cruciaal om te weten wanneer ze niet moeten antwoorden als om correct te antwoorden. Gebruikersvragen in de echte wereld, die onvolledig, onjuist geformuleerd of fundamenteel onbeantwoordbaar kunnen zijn, vereisen dat LLMs kunnen redeneren over onzekerheid en selectief kunnen afzien — dat wil zeggen, weigeren om definitief te antwoorden. Toch blijft afzien onderbelicht, zonder een systematisch evaluatiekader voor moderne LLMs. In dit werk introduceren we AbstentionBench, een grootschalige benchmark voor het holistisch evalueren van afzien over 20 diverse datasets, inclusief vragen met onbekende antwoorden, onvolledige specificaties, valse premissen, subjectieve interpretaties en verouderde informatie. Evaluatie van 20 toonaangevende LLMs laat zien dat afzien een onopgelost probleem is, en een probleem waarbij het opschalen van modellen weinig nut heeft. Hoewel recente redeneer-LLMs indrukwekkende resultaten hebben getoond in complexe probleemoplossing, vinden we verrassend genoeg dat fine-tuning voor redeneren afzien verslechtert (met gemiddeld 24%), zelfs voor wiskunde- en wetenschapsdomeinen waarop redeneermodellen expliciet zijn getraind. We ontdekken dat, hoewel een zorgvuldig opgesteld systeemprompt afzien in de praktijk kan verbeteren, het de fundamentele onmogelijkheid van modellen om over onzekerheid te redeneren niet oplost. We maken AbstentionBench beschikbaar om onderzoek naar het bevorderen van de betrouwbaarheid van LLMs te stimuleren.
English
For Large Language Models (LLMs) to be reliably deployed in both everyday and
high-stakes domains, knowing when not to answer is equally critical as
answering correctly. Real-world user queries, which can be underspecified,
ill-posed, or fundamentally unanswerable, require LLMs to reason about
uncertainty and selectively abstain -- i.e., refuse to answer definitively.
However, abstention remains understudied, without a systematic evaluation
framework for modern LLMs. In this work, we introduce AbstentionBench, a
large-scale benchmark for holistically evaluating abstention across 20 diverse
datasets, including questions with unknown answers, underspecification, false
premises, subjective interpretations, and outdated information. Evaluating 20
frontier LLMs reveals abstention is an unsolved problem, and one where scaling
models is of little use. While recent reasoning LLMs have shown impressive
results in complex problem solving, surprisingly, we find that reasoning
fine-tuning degrades abstention (by 24% on average), even for math and
science domains on which reasoning models are explicitly trained. We find that
while a carefully crafted system prompt can boost abstention in practice, it
does not resolve models' fundamental inability to reason about uncertainty. We
release AbstentionBench to foster research into advancing LLM reliability.