ChatPaper.aiChatPaper

Voorbij het Oplossen van Wiskundequizzen: Het Evalueren van het Vermogen van Grote Redeneermodellen om Informatie te Vragen

Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

August 15, 2025
Auteurs: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
cs.AI

Samenvatting

Grote Redeneermodellen (LRMs) hebben opmerkelijke probleemoplossende vaardigheden getoond in wiskunde, zoals beoordeeld door bestaande benchmarks die uitsluitend gericht zijn op goed gedefinieerde problemen. Een dergelijke evaluatieopzet vormt echter een kritische leemte, aangezien een echt intelligente agent niet alleen problemen moet kunnen oplossen (als een wiskunde-quizoplosser), maar ook in staat moet zijn om informatie te vragen wanneer problemen onvoldoende informatie bevatten, waardoor proactiviteit mogelijk wordt bij het reageren op gebruikersverzoeken. Om deze leemte te overbruggen, stellen wij een nieuwe dataset voor die bestaat uit twee soorten onvolledige problemen met diverse contexten. Op basis van deze dataset onthult onze systematische evaluatie van LRMs hun onvermogen om proactief om informatie te vragen. Daarnaast leggen we gedragingen bloot die verband houden met overdenken en hallucinatie bij LRMs, en benadrukken we de potentie en uitdagingen van supervised fine-tuning bij het aanleren van dergelijke vaardigheden. Wij hopen nieuwe inzichten te bieden bij de ontwikkeling van LRMs met echte intelligentie, in plaats van alleen problemen op te lossen.
English
Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users' requests. To bridge such gap, we proposes a new dataset consisting of two types of incomplete problems with diverse contexts. Based on the dataset, our systematical evaluation of LRMs reveals their inability in proactively asking for information. In addition, we uncover the behaviors related to overthinking and hallucination of LRMs, and highlight the potential and challenges of supervised fine-tuning in learning such ability. We hope to provide new insights in developing LRMs with genuine intelligence, rather than just solving problems.
PDF33August 19, 2025