AbstentionBench: Los modelos de lenguaje de razonamiento fallan en preguntas sin respuesta
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions
June 10, 2025
Autores: Polina Kirichenko, Mark Ibrahim, Kamalika Chaudhuri, Samuel J. Bell
cs.AI
Resumen
Para que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) puedan implementarse de manera confiable tanto en dominios cotidianos como en aquellos de alto riesgo, saber cuándo no responder es tan crítico como responder correctamente. Las consultas de usuarios en el mundo real, que pueden estar subespecificadas, mal planteadas o ser fundamentalmente irrespondibles, requieren que los LLMs razonen sobre la incertidumbre y se abstengan selectivamente, es decir, que se nieguen a responder de manera definitiva. Sin embargo, la abstención sigue siendo un tema poco estudiado, sin un marco de evaluación sistemático para los LLMs modernos. En este trabajo, presentamos AbstentionBench, un punto de referencia a gran escala para evaluar de manera integral la abstención en 20 conjuntos de datos diversos, incluyendo preguntas con respuestas desconocidas, subespecificación, premisas falsas, interpretaciones subjetivas e información desactualizada. La evaluación de 20 LLMs de vanguardia revela que la abstención es un problema no resuelto, y uno en el que escalar los modelos es de poca utilidad. Aunque los LLMs de razonamiento recientes han mostrado resultados impresionantes en la resolución de problemas complejos, sorprendentemente, encontramos que el ajuste fino de razonamiento degrada la abstención (en un 24% en promedio), incluso en dominios de matemáticas y ciencias en los que los modelos de razonamiento están explícitamente entrenados. Descubrimos que, aunque un mensaje de sistema cuidadosamente elaborado puede impulsar la abstención en la práctica, no resuelve la incapacidad fundamental de los modelos para razonar sobre la incertidumbre. Publicamos AbstentionBench para fomentar la investigación en el avance de la confiabilidad de los LLMs.
English
For Large Language Models (LLMs) to be reliably deployed in both everyday and
high-stakes domains, knowing when not to answer is equally critical as
answering correctly. Real-world user queries, which can be underspecified,
ill-posed, or fundamentally unanswerable, require LLMs to reason about
uncertainty and selectively abstain -- i.e., refuse to answer definitively.
However, abstention remains understudied, without a systematic evaluation
framework for modern LLMs. In this work, we introduce AbstentionBench, a
large-scale benchmark for holistically evaluating abstention across 20 diverse
datasets, including questions with unknown answers, underspecification, false
premises, subjective interpretations, and outdated information. Evaluating 20
frontier LLMs reveals abstention is an unsolved problem, and one where scaling
models is of little use. While recent reasoning LLMs have shown impressive
results in complex problem solving, surprisingly, we find that reasoning
fine-tuning degrades abstention (by 24% on average), even for math and
science domains on which reasoning models are explicitly trained. We find that
while a carefully crafted system prompt can boost abstention in practice, it
does not resolve models' fundamental inability to reason about uncertainty. We
release AbstentionBench to foster research into advancing LLM reliability.