ChatPaper.aiChatPaper

数学クイズの解決を超えて:大規模推論モデルの情報要求能力の評価

Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

August 15, 2025
著者: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
cs.AI

要旨

大規模推論モデル(LRMs)は、既存のベンチマークにおいて、明確に定義された問題に対して顕著な問題解決能力を示してきた。しかし、そのような評価設定は重大なギャップを構成している。なぜなら、真の知能エージェントは、単に問題を解決する(数学クイズソルバーとしての役割)だけでなく、問題に十分な情報が欠けている場合に情報を要求する能力も持つべきであり、ユーザーのリクエストに対して積極的に対応できる必要があるからである。このギャップを埋めるために、我々は多様な文脈を持つ2種類の不完全な問題からなる新しいデータセットを提案する。このデータセットに基づいて、LRMsの体系的評価を行った結果、それらが積極的に情報を要求する能力に欠けていることが明らかになった。さらに、LRMsの過剰思考や幻覚に関連する行動を明らかにし、そのような能力を学習するための教師ありファインチューニングの可能性と課題を強調する。我々は、単に問題を解決するだけでなく、真の知能を持つLRMsを開発するための新たな洞察を提供することを目指している。
English
Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users' requests. To bridge such gap, we proposes a new dataset consisting of two types of incomplete problems with diverse contexts. Based on the dataset, our systematical evaluation of LRMs reveals their inability in proactively asking for information. In addition, we uncover the behaviors related to overthinking and hallucination of LRMs, and highlight the potential and challenges of supervised fine-tuning in learning such ability. We hope to provide new insights in developing LRMs with genuine intelligence, rather than just solving problems.
PDF22August 19, 2025