ChatPaper.aiChatPaper

Über das Lösen von Mathe-Quiz hinaus: Bewertung der Fähigkeit großer Reasoning-Modelle, Informationen anzufordern

Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

August 15, 2025
papers.authors: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
cs.AI

papers.abstract

Große Reasoning-Modelle (LRMs) haben bemerkenswerte Problemlösungsfähigkeiten in der Mathematik gezeigt, wie durch bestehende Benchmarks ausschließlich für wohl-definierte Probleme bewertet wurde. Eine solche Evaluierungsumgebung stellt jedoch eine kritische Lücke dar, da ein wirklich intelligenter Agent nicht nur Probleme lösen (wie ein Mathe-Quiz-Löser) sollte, sondern auch in der Lage sein muss, Informationen anzufordern, wenn die Probleme unzureichende Informationen enthalten, um Proaktivität bei der Beantwortung von Benutzeranfragen zu ermöglichen. Um diese Lücke zu schließen, schlagen wir einen neuen Datensatz vor, der aus zwei Arten von unvollständigen Problemen mit diversen Kontexten besteht. Basierend auf diesem Datensatz zeigt unsere systematische Evaluierung von LRMs deren Unfähigkeit, proaktiv nach Informationen zu fragen. Darüber hinaus decken wir Verhaltensweisen im Zusammenhang mit Überdenken und Halluzination von LRMs auf und heben das Potenzial und die Herausforderungen des überwachten Feinabstimmens beim Erlernen dieser Fähigkeit hervor. Wir hoffen, neue Einblicke in die Entwicklung von LRMs mit echter Intelligenz zu bieten, anstatt nur Probleme zu lösen.
English
Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users' requests. To bridge such gap, we proposes a new dataset consisting of two types of incomplete problems with diverse contexts. Based on the dataset, our systematical evaluation of LRMs reveals their inability in proactively asking for information. In addition, we uncover the behaviors related to overthinking and hallucination of LRMs, and highlight the potential and challenges of supervised fine-tuning in learning such ability. We hope to provide new insights in developing LRMs with genuine intelligence, rather than just solving problems.
PDF22August 19, 2025