Voorbij het Oplossen van Wiskundequizzen: Het Evalueren van het Vermogen van Grote Redeneermodellen om Informatie te Vragen
Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information
August 15, 2025
Auteurs: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
cs.AI
Samenvatting
Grote Redeneermodellen (LRMs) hebben opmerkelijke probleemoplossende vaardigheden getoond in wiskunde, zoals beoordeeld door bestaande benchmarks die uitsluitend gericht zijn op goed gedefinieerde problemen. Een dergelijke evaluatieopzet vormt echter een kritische leemte, aangezien een echt intelligente agent niet alleen problemen moet kunnen oplossen (als een wiskunde-quizoplosser), maar ook in staat moet zijn om informatie te vragen wanneer problemen onvoldoende informatie bevatten, waardoor proactiviteit mogelijk wordt bij het reageren op gebruikersverzoeken. Om deze leemte te overbruggen, stellen wij een nieuwe dataset voor die bestaat uit twee soorten onvolledige problemen met diverse contexten. Op basis van deze dataset onthult onze systematische evaluatie van LRMs hun onvermogen om proactief om informatie te vragen. Daarnaast leggen we gedragingen bloot die verband houden met overdenken en hallucinatie bij LRMs, en benadrukken we de potentie en uitdagingen van supervised fine-tuning bij het aanleren van dergelijke vaardigheden. Wij hopen nieuwe inzichten te bieden bij de ontwikkeling van LRMs met echte intelligentie, in plaats van alleen problemen op te lossen.
English
Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving
abilities in mathematics, as evaluated by existing benchmarks exclusively on
well-defined problems. However, such evaluation setup constitutes a critical
gap, since a genuine intelligent agent should not only solve problems (as a
math quiz solver), but also be able~to ask for information when the problems
lack sufficient information, enabling proactivity in responding users'
requests. To bridge such gap, we proposes a new dataset consisting of two types
of incomplete problems with diverse contexts. Based on the dataset, our
systematical evaluation of LRMs reveals their inability in proactively asking
for information. In addition, we uncover the behaviors related to overthinking
and hallucination of LRMs, and highlight the potential and challenges of
supervised fine-tuning in learning such ability. We hope to provide new
insights in developing LRMs with genuine intelligence, rather than just solving
problems.