AbstentionBench: Modelos de Linguagem de Grande Escala Falham em Perguntas Inrespondíveis
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions
June 10, 2025
Autores: Polina Kirichenko, Mark Ibrahim, Kamalika Chaudhuri, Samuel J. Bell
cs.AI
Resumo
Para que os Modelos de Linguagem de Grande Escala (LLMs) sejam implantados de forma confiável tanto em domínios cotidianos quanto de alta responsabilidade, saber quando não responder é tão crítico quanto responder corretamente. Consultas de usuários do mundo real, que podem ser subespecificadas, mal formuladas ou fundamentalmente impossíveis de responder, exigem que os LLMs raciocinem sobre incerteza e se abstenham seletivamente — ou seja, recusem-se a responder de forma definitiva. No entanto, a abstenção permanece pouco estudada, sem um framework de avaliação sistemática para LLMs modernos. Neste trabalho, apresentamos o AbstentionBench, um benchmark em larga escala para avaliar holisticamente a abstenção em 20 conjuntos de dados diversos, incluindo perguntas com respostas desconhecidas, subespecificação, premissas falsas, interpretações subjetivas e informações desatualizadas. A avaliação de 20 LLMs de ponta revela que a abstenção é um problema não resolvido, e um em que a escalonamento de modelos é de pouca utilidade. Embora LLMs recentes de raciocínio tenham mostrado resultados impressionantes na resolução de problemas complexos, surpreendentemente, descobrimos que o ajuste fino de raciocínio degrada a abstenção (em 24% em média), mesmo em domínios de matemática e ciências nos quais os modelos de raciocínio são explicitamente treinados. Descobrimos que, embora um prompt de sistema cuidadosamente elaborado possa impulsionar a abstenção na prática, ele não resolve a incapacidade fundamental dos modelos de raciocinar sobre incerteza. Lançamos o AbstentionBench para fomentar pesquisas que avancem a confiabilidade dos LLMs.
English
For Large Language Models (LLMs) to be reliably deployed in both everyday and
high-stakes domains, knowing when not to answer is equally critical as
answering correctly. Real-world user queries, which can be underspecified,
ill-posed, or fundamentally unanswerable, require LLMs to reason about
uncertainty and selectively abstain -- i.e., refuse to answer definitively.
However, abstention remains understudied, without a systematic evaluation
framework for modern LLMs. In this work, we introduce AbstentionBench, a
large-scale benchmark for holistically evaluating abstention across 20 diverse
datasets, including questions with unknown answers, underspecification, false
premises, subjective interpretations, and outdated information. Evaluating 20
frontier LLMs reveals abstention is an unsolved problem, and one where scaling
models is of little use. While recent reasoning LLMs have shown impressive
results in complex problem solving, surprisingly, we find that reasoning
fine-tuning degrades abstention (by 24% on average), even for math and
science domains on which reasoning models are explicitly trained. We find that
while a carefully crafted system prompt can boost abstention in practice, it
does not resolve models' fundamental inability to reason about uncertainty. We
release AbstentionBench to foster research into advancing LLM reliability.