AbstentionBench : Les modèles de langage échouent sur les questions sans réponse
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions
June 10, 2025
Auteurs: Polina Kirichenko, Mark Ibrahim, Kamalika Chaudhuri, Samuel J. Bell
cs.AI
Résumé
Pour que les modèles de langage de grande taille (LLMs) puissent être déployés de manière fiable dans des domaines quotidiens et à enjeux élevés, savoir quand ne pas répondre est tout aussi crucial que de répondre correctement. Les requêtes des utilisateurs dans le monde réel, qui peuvent être sous-spécifiées, mal posées ou fondamentalement impossibles à répondre, exigent que les LLMs raisonnent sur l'incertitude et s'abstiennent de manière sélective — c'est-à-dire refusent de répondre de manière définitive. Cependant, l'abstention reste peu étudiée, sans cadre d'évaluation systématique pour les LLMs modernes. Dans ce travail, nous introduisons AbstentionBench, un benchmark à grande échelle pour évaluer de manière holistique l'abstention sur 20 ensembles de données divers, incluant des questions avec des réponses inconnues, de la sous-spécification, des prémisses fausses, des interprétations subjectives et des informations obsolètes. L'évaluation de 20 LLMs de pointe révèle que l'abstention est un problème non résolu, et un domaine où la mise à l'échelle des modèles est peu utile. Bien que les LLMs récents de raisonnement aient montré des résultats impressionnants dans la résolution de problèmes complexes, étonnamment, nous constatons que le fine-tuning de raisonnement dégrade l'abstention (de 24 % en moyenne), même pour les domaines des mathématiques et des sciences sur lesquels les modèles de raisonnement sont explicitement entraînés. Nous constatons que bien qu'une invite système soigneusement conçue puisse améliorer l'abstention en pratique, elle ne résout pas l'incapacité fondamentale des modèles à raisonner sur l'incertitude. Nous publions AbstentionBench pour favoriser la recherche visant à améliorer la fiabilité des LLMs.
English
For Large Language Models (LLMs) to be reliably deployed in both everyday and
high-stakes domains, knowing when not to answer is equally critical as
answering correctly. Real-world user queries, which can be underspecified,
ill-posed, or fundamentally unanswerable, require LLMs to reason about
uncertainty and selectively abstain -- i.e., refuse to answer definitively.
However, abstention remains understudied, without a systematic evaluation
framework for modern LLMs. In this work, we introduce AbstentionBench, a
large-scale benchmark for holistically evaluating abstention across 20 diverse
datasets, including questions with unknown answers, underspecification, false
premises, subjective interpretations, and outdated information. Evaluating 20
frontier LLMs reveals abstention is an unsolved problem, and one where scaling
models is of little use. While recent reasoning LLMs have shown impressive
results in complex problem solving, surprisingly, we find that reasoning
fine-tuning degrades abstention (by 24% on average), even for math and
science domains on which reasoning models are explicitly trained. We find that
while a carefully crafted system prompt can boost abstention in practice, it
does not resolve models' fundamental inability to reason about uncertainty. We
release AbstentionBench to foster research into advancing LLM reliability.