수학 퀴즈 풀이를 넘어서: 대규모 추론 모델의 정보 요청 능력 평가
Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information
August 15, 2025
저자: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
cs.AI
초록
대규모 추론 모델(Large Reasoning Models, LRMs)은 기존 벤치마크를 통해 잘 정의된 문제들에 대해 뛰어난 문제 해결 능력을 보여왔습니다. 그러나 이러한 평가 방식은 중요한 한계를 지니고 있습니다. 진정한 지능형 에이전트는 단순히 문제를 해결하는 것(수학 퀴즈 해결사로서의 역할)뿐만 아니라, 문제에 충분한 정보가 부족할 때 추가 정보를 요청할 수 있어야 하며, 이를 통해 사용자 요청에 능동적으로 대응할 수 있어야 합니다. 이러한 격차를 해소하기 위해, 우리는 다양한 맥락을 가진 두 가지 유형의 불완전한 문제로 구성된 새로운 데이터셋을 제안합니다. 이 데이터셋을 기반으로 LRMs에 대한 체계적인 평가를 수행한 결과, 이들이 능동적으로 정보를 요청하는 능력이 부족함을 확인했습니다. 또한, LRMs의 과도한 사고(overthinking)와 환각(hallucination)과 관련된 행동을 발견했으며, 이러한 능력을 학습하기 위한 지도 미세 조정(supervised fine-tuning)의 잠재력과 과제를 강조했습니다. 우리는 단순히 문제를 해결하는 것을 넘어 진정한 지능을 갖춘 LRMs 개발에 새로운 통찰을 제공하고자 합니다.
English
Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving
abilities in mathematics, as evaluated by existing benchmarks exclusively on
well-defined problems. However, such evaluation setup constitutes a critical
gap, since a genuine intelligent agent should not only solve problems (as a
math quiz solver), but also be able~to ask for information when the problems
lack sufficient information, enabling proactivity in responding users'
requests. To bridge such gap, we proposes a new dataset consisting of two types
of incomplete problems with diverse contexts. Based on the dataset, our
systematical evaluation of LRMs reveals their inability in proactively asking
for information. In addition, we uncover the behaviors related to overthinking
and hallucination of LRMs, and highlight the potential and challenges of
supervised fine-tuning in learning such ability. We hope to provide new
insights in developing LRMs with genuine intelligence, rather than just solving
problems.