ChatPaper.aiChatPaper

Más allá de resolver cuestionarios matemáticos: Evaluando la capacidad de los modelos de razonamiento a gran escala para solicitar información

Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

August 15, 2025
Autores: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
cs.AI

Resumen

Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado habilidades notables para resolver problemas en matemáticas, según lo evaluado por los benchmarks existentes que se centran exclusivamente en problemas bien definidos. Sin embargo, este enfoque de evaluación presenta una brecha crítica, ya que un agente inteligente genuino no solo debería resolver problemas (como un solucionador de cuestionarios matemáticos), sino también ser capaz de solicitar información cuando los problemas carecen de datos suficientes, permitiendo así una respuesta proactiva a las solicitudes de los usuarios. Para abordar esta brecha, proponemos un nuevo conjunto de datos que consta de dos tipos de problemas incompletos con contextos diversos. Basándonos en este conjunto de datos, nuestra evaluación sistemática de los LRMs revela su incapacidad para solicitar información de manera proactiva. Además, descubrimos comportamientos relacionados con el sobrepensamiento y la alucinación en los LRMs, y destacamos el potencial y los desafíos del ajuste fino supervisado para aprender esta habilidad. Esperamos ofrecer nuevas perspectivas en el desarrollo de LRMs con inteligencia genuina, en lugar de limitarse a resolver problemas.
English
Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users' requests. To bridge such gap, we proposes a new dataset consisting of two types of incomplete problems with diverse contexts. Based on the dataset, our systematical evaluation of LRMs reveals their inability in proactively asking for information. In addition, we uncover the behaviors related to overthinking and hallucination of LRMs, and highlight the potential and challenges of supervised fine-tuning in learning such ability. We hope to provide new insights in developing LRMs with genuine intelligence, rather than just solving problems.
PDF22August 19, 2025