Über das Lösen von Mathe-Quiz hinaus: Bewertung der Fähigkeit großer Reasoning-Modelle, Informationen anzufordern
Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information
August 15, 2025
papers.authors: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Problemlösungsfähigkeiten in der Mathematik gezeigt, wie durch bestehende Benchmarks ausschließlich für wohl-definierte Probleme bewertet wurde. Eine solche Evaluierungsumgebung stellt jedoch eine kritische Lücke dar, da ein wirklich intelligenter Agent nicht nur Probleme lösen (wie ein Mathe-Quiz-Löser) sollte, sondern auch in der Lage sein muss, Informationen anzufordern, wenn die Probleme unzureichende Informationen enthalten, um Proaktivität bei der Beantwortung von Benutzeranfragen zu ermöglichen. Um diese Lücke zu schließen, schlagen wir einen neuen Datensatz vor, der aus zwei Arten von unvollständigen Problemen mit diversen Kontexten besteht. Basierend auf diesem Datensatz zeigt unsere systematische Evaluierung von LRMs deren Unfähigkeit, proaktiv nach Informationen zu fragen. Darüber hinaus decken wir Verhaltensweisen im Zusammenhang mit Überdenken und Halluzination von LRMs auf und heben das Potenzial und die Herausforderungen des überwachten Feinabstimmens beim Erlernen dieser Fähigkeit hervor. Wir hoffen, neue Einblicke in die Entwicklung von LRMs mit echter Intelligenz zu bieten, anstatt nur Probleme zu lösen.
English
Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving
abilities in mathematics, as evaluated by existing benchmarks exclusively on
well-defined problems. However, such evaluation setup constitutes a critical
gap, since a genuine intelligent agent should not only solve problems (as a
math quiz solver), but also be able~to ask for information when the problems
lack sufficient information, enabling proactivity in responding users'
requests. To bridge such gap, we proposes a new dataset consisting of two types
of incomplete problems with diverse contexts. Based on the dataset, our
systematical evaluation of LRMs reveals their inability in proactively asking
for information. In addition, we uncover the behaviors related to overthinking
and hallucination of LRMs, and highlight the potential and challenges of
supervised fine-tuning in learning such ability. We hope to provide new
insights in developing LRMs with genuine intelligence, rather than just solving
problems.