ChatPaper.aiChatPaper

기권 판단: 추론 LLM이 답변 불가능한 질문에서 실패하는 이유

AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

June 10, 2025
저자: Polina Kirichenko, Mark Ibrahim, Kamalika Chaudhuri, Samuel J. Bell
cs.AI

초록

대규모 언어 모델(LLMs)이 일상적 및 고위험 영역에서 안정적으로 활용되기 위해서는, 올바르게 답변하는 것만큼이나 언제 답변하지 않아야 하는지를 아는 것이 중요합니다. 현실 세계의 사용자 질문은 불완전하게 명시되거나, 잘못 제기되거나, 근본적으로 답변할 수 없는 경우가 많기 때문에, LLMs는 불확실성에 대해 추론하고 선택적으로 자제(즉, 명확히 답변하지 않기)할 수 있어야 합니다. 그러나 자제에 대한 연구는 여전히 부족하며, 현대 LLMs를 체계적으로 평가할 수 있는 프레임워크가 마련되어 있지 않습니다. 본 연구에서는 AbstentionBench를 소개합니다. 이는 알려지지 않은 답변, 불완전한 명세, 잘못된 전제, 주관적 해석, 그리고 구식 정보를 포함한 20가지 다양한 데이터셋에 걸쳐 자제를 종합적으로 평가하기 위한 대규모 벤치마크입니다. 20개의 최신 LLMs를 평가한 결과, 자제는 아직 해결되지 않은 문제이며, 모델 규모 확장이 거의 도움이 되지 않는 것으로 나타났습니다. 최근 추론 LLMs가 복잡한 문제 해결에서 인상적인 성과를 보였음에도 불구하고, 놀랍게도 추론 미세 조정은 자제 능력을 저하시키는 것으로 나타났습니다(평균 24% 감소). 이는 추론 모델이 명시적으로 훈련된 수학 및 과학 영역에서도 마찬가지였습니다. 신중하게 설계된 시스템 프롬프트가 실제로 자제를 개선할 수는 있지만, 모델의 불확실성에 대한 근본적인 추론 능력 부족을 해결하지는 못하는 것으로 나타났습니다. 우리는 LLM 신뢰성 향상을 위한 연구를 촉진하기 위해 AbstentionBench를 공개합니다.
English
For Large Language Models (LLMs) to be reliably deployed in both everyday and high-stakes domains, knowing when not to answer is equally critical as answering correctly. Real-world user queries, which can be underspecified, ill-posed, or fundamentally unanswerable, require LLMs to reason about uncertainty and selectively abstain -- i.e., refuse to answer definitively. However, abstention remains understudied, without a systematic evaluation framework for modern LLMs. In this work, we introduce AbstentionBench, a large-scale benchmark for holistically evaluating abstention across 20 diverse datasets, including questions with unknown answers, underspecification, false premises, subjective interpretations, and outdated information. Evaluating 20 frontier LLMs reveals abstention is an unsolved problem, and one where scaling models is of little use. While recent reasoning LLMs have shown impressive results in complex problem solving, surprisingly, we find that reasoning fine-tuning degrades abstention (by 24% on average), even for math and science domains on which reasoning models are explicitly trained. We find that while a carefully crafted system prompt can boost abstention in practice, it does not resolve models' fundamental inability to reason about uncertainty. We release AbstentionBench to foster research into advancing LLM reliability.
PDF52June 16, 2025