Más allá de resolver cuestionarios matemáticos: Evaluando la capacidad de los modelos de razonamiento a gran escala para solicitar información
Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information
August 15, 2025
Autores: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado habilidades notables para resolver problemas en matemáticas, según lo evaluado por los benchmarks existentes que se centran exclusivamente en problemas bien definidos. Sin embargo, este enfoque de evaluación presenta una brecha crítica, ya que un agente inteligente genuino no solo debería resolver problemas (como un solucionador de cuestionarios matemáticos), sino también ser capaz de solicitar información cuando los problemas carecen de datos suficientes, permitiendo así una respuesta proactiva a las solicitudes de los usuarios. Para abordar esta brecha, proponemos un nuevo conjunto de datos que consta de dos tipos de problemas incompletos con contextos diversos. Basándonos en este conjunto de datos, nuestra evaluación sistemática de los LRMs revela su incapacidad para solicitar información de manera proactiva. Además, descubrimos comportamientos relacionados con el sobrepensamiento y la alucinación en los LRMs, y destacamos el potencial y los desafíos del ajuste fino supervisado para aprender esta habilidad. Esperamos ofrecer nuevas perspectivas en el desarrollo de LRMs con inteligencia genuina, en lugar de limitarse a resolver problemas.
English
Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving
abilities in mathematics, as evaluated by existing benchmarks exclusively on
well-defined problems. However, such evaluation setup constitutes a critical
gap, since a genuine intelligent agent should not only solve problems (as a
math quiz solver), but also be able~to ask for information when the problems
lack sufficient information, enabling proactivity in responding users'
requests. To bridge such gap, we proposes a new dataset consisting of two types
of incomplete problems with diverse contexts. Based on the dataset, our
systematical evaluation of LRMs reveals their inability in proactively asking
for information. In addition, we uncover the behaviors related to overthinking
and hallucination of LRMs, and highlight the potential and challenges of
supervised fine-tuning in learning such ability. We hope to provide new
insights in developing LRMs with genuine intelligence, rather than just solving
problems.