AbstentionBench: Redeneer-LLM's falen bij onbeantwoordbare vragen

Samenvatting

Om Large Language Models (LLMs) betrouwbaar in te kunnen zetten in zowel alledaagse als hoogrisicodomeinen, is het even cruciaal om te weten wanneer ze niet moeten antwoorden als om correct te antwoorden. Gebruikersvragen in de echte wereld, die onvolledig, onjuist geformuleerd of fundamenteel onbeantwoordbaar kunnen zijn, vereisen dat LLMs kunnen redeneren over onzekerheid en selectief kunnen afzien — dat wil zeggen, weigeren om definitief te antwoorden. Toch blijft afzien onderbelicht, zonder een systematisch evaluatiekader voor moderne LLMs. In dit werk introduceren we AbstentionBench, een grootschalige benchmark voor het holistisch evalueren van afzien over 20 diverse datasets, inclusief vragen met onbekende antwoorden, onvolledige specificaties, valse premissen, subjectieve interpretaties en verouderde informatie. Evaluatie van 20 toonaangevende LLMs laat zien dat afzien een onopgelost probleem is, en een probleem waarbij het opschalen van modellen weinig nut heeft. Hoewel recente redeneer-LLMs indrukwekkende resultaten hebben getoond in complexe probleemoplossing, vinden we verrassend genoeg dat fine-tuning voor redeneren afzien verslechtert (met gemiddeld 24%), zelfs voor wiskunde- en wetenschapsdomeinen waarop redeneermodellen expliciet zijn getraind. We ontdekken dat, hoewel een zorgvuldig opgesteld systeemprompt afzien in de praktijk kan verbeteren, het de fundamentele onmogelijkheid van modellen om over onzekerheid te redeneren niet oplost. We maken AbstentionBench beschikbaar om onderzoek naar het bevorderen van de betrouwbaarheid van LLMs te stimuleren.

English

For Large Language Models (LLMs) to be reliably deployed in both everyday and high-stakes domains, knowing when not to answer is equally critical as answering correctly. Real-world user queries, which can be underspecified, ill-posed, or fundamentally unanswerable, require LLMs to reason about uncertainty and selectively abstain -- i.e., refuse to answer definitively. However, abstention remains understudied, without a systematic evaluation framework for modern LLMs. In this work, we introduce AbstentionBench, a large-scale benchmark for holistically evaluating abstention across 20 diverse datasets, including questions with unknown answers, underspecification, false premises, subjective interpretations, and outdated information. Evaluating 20 frontier LLMs reveals abstention is an unsolved problem, and one where scaling models is of little use. While recent reasoning LLMs have shown impressive results in complex problem solving, surprisingly, we find that reasoning fine-tuning degrades abstention (by 24% on average), even for math and science domains on which reasoning models are explicitly trained. We find that while a carefully crafted system prompt can boost abstention in practice, it does not resolve models' fundamental inability to reason about uncertainty. We release AbstentionBench to foster research into advancing LLM reliability.

AbstentionBench: Redeneer-LLM's falen bij onbeantwoordbare vragen

AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

Samenvatting

Support