AbstentionBench: Modelos de Linguagem de Grande Escala Falham em Perguntas Inrespondíveis

Resumo

Para que os Modelos de Linguagem de Grande Escala (LLMs) sejam implantados de forma confiável tanto em domínios cotidianos quanto de alta responsabilidade, saber quando não responder é tão crítico quanto responder corretamente. Consultas de usuários do mundo real, que podem ser subespecificadas, mal formuladas ou fundamentalmente impossíveis de responder, exigem que os LLMs raciocinem sobre incerteza e se abstenham seletivamente — ou seja, recusem-se a responder de forma definitiva. No entanto, a abstenção permanece pouco estudada, sem um framework de avaliação sistemática para LLMs modernos. Neste trabalho, apresentamos o AbstentionBench, um benchmark em larga escala para avaliar holisticamente a abstenção em 20 conjuntos de dados diversos, incluindo perguntas com respostas desconhecidas, subespecificação, premissas falsas, interpretações subjetivas e informações desatualizadas. A avaliação de 20 LLMs de ponta revela que a abstenção é um problema não resolvido, e um em que a escalonamento de modelos é de pouca utilidade. Embora LLMs recentes de raciocínio tenham mostrado resultados impressionantes na resolução de problemas complexos, surpreendentemente, descobrimos que o ajuste fino de raciocínio degrada a abstenção (em 24% em média), mesmo em domínios de matemática e ciências nos quais os modelos de raciocínio são explicitamente treinados. Descobrimos que, embora um prompt de sistema cuidadosamente elaborado possa impulsionar a abstenção na prática, ele não resolve a incapacidade fundamental dos modelos de raciocinar sobre incerteza. Lançamos o AbstentionBench para fomentar pesquisas que avancem a confiabilidade dos LLMs.

English

For Large Language Models (LLMs) to be reliably deployed in both everyday and high-stakes domains, knowing when not to answer is equally critical as answering correctly. Real-world user queries, which can be underspecified, ill-posed, or fundamentally unanswerable, require LLMs to reason about uncertainty and selectively abstain -- i.e., refuse to answer definitively. However, abstention remains understudied, without a systematic evaluation framework for modern LLMs. In this work, we introduce AbstentionBench, a large-scale benchmark for holistically evaluating abstention across 20 diverse datasets, including questions with unknown answers, underspecification, false premises, subjective interpretations, and outdated information. Evaluating 20 frontier LLMs reveals abstention is an unsolved problem, and one where scaling models is of little use. While recent reasoning LLMs have shown impressive results in complex problem solving, surprisingly, we find that reasoning fine-tuning degrades abstention (by 24% on average), even for math and science domains on which reasoning models are explicitly trained. We find that while a carefully crafted system prompt can boost abstention in practice, it does not resolve models' fundamental inability to reason about uncertainty. We release AbstentionBench to foster research into advancing LLM reliability.

AbstentionBench: Modelos de Linguagem de Grande Escala Falham em Perguntas Inrespondíveis

AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

Resumo

Support