ChatPaper.aiChatPaper

AbstentionBench: I Modelli Linguistici di Ragionamento Falliscono su Domande Irrisolvibili

AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

June 10, 2025
Autori: Polina Kirichenko, Mark Ibrahim, Kamalika Chaudhuri, Samuel J. Bell
cs.AI

Abstract

Affinché i Large Language Models (LLM) possano essere implementati in modo affidabile sia in contesti quotidiani che in ambiti ad alto rischio, sapere quando non rispondere è altrettanto cruciale quanto rispondere correttamente. Le query degli utenti nel mondo reale, che possono essere sottospecificate, mal poste o fondamentalmente irrisolvibili, richiedono che i LLM ragionino sull'incertezza e si astengano selettivamente, ovvero rifiutino di rispondere in modo definitivo. Tuttavia, l'astensione rimane poco studiata, senza un quadro di valutazione sistematico per i moderni LLM. In questo lavoro, introduciamo AbstentionBench, un benchmark su larga scala per valutare in modo olistico l'astensione su 20 dataset diversi, inclusi domande con risposte sconosciute, sottospecificazione, premesse false, interpretazioni soggettive e informazioni obsolete. La valutazione di 20 LLM all'avanguardia rivela che l'astensione è un problema irrisolto e uno in cui il ridimensionamento dei modelli è di scarsa utilità. Sebbene i recenti LLM di ragionamento abbiano mostrato risultati impressionanti nella risoluzione di problemi complessi, sorprendentemente, scopriamo che il fine-tuning sul ragionamento peggiora l'astensione (del 24% in media), persino nei domini di matematica e scienze su cui i modelli di ragionamento sono esplicitamente addestrati. Troviamo che, sebbene un prompt di sistema accuratamente progettato possa migliorare l'astensione nella pratica, non risolve l'incapacità fondamentale dei modelli di ragionare sull'incertezza. Rilasciamo AbstentionBench per promuovere la ricerca verso il miglioramento dell'affidabilità dei LLM.
English
For Large Language Models (LLMs) to be reliably deployed in both everyday and high-stakes domains, knowing when not to answer is equally critical as answering correctly. Real-world user queries, which can be underspecified, ill-posed, or fundamentally unanswerable, require LLMs to reason about uncertainty and selectively abstain -- i.e., refuse to answer definitively. However, abstention remains understudied, without a systematic evaluation framework for modern LLMs. In this work, we introduce AbstentionBench, a large-scale benchmark for holistically evaluating abstention across 20 diverse datasets, including questions with unknown answers, underspecification, false premises, subjective interpretations, and outdated information. Evaluating 20 frontier LLMs reveals abstention is an unsolved problem, and one where scaling models is of little use. While recent reasoning LLMs have shown impressive results in complex problem solving, surprisingly, we find that reasoning fine-tuning degrades abstention (by 24% on average), even for math and science domains on which reasoning models are explicitly trained. We find that while a carefully crafted system prompt can boost abstention in practice, it does not resolve models' fundamental inability to reason about uncertainty. We release AbstentionBench to foster research into advancing LLM reliability.
PDF72June 16, 2025