Razonamiento sobre objetos matemáticos: modelado de recompensas en política y agregación en tiempo de prueba.

Resumen

La capacidad de derivar objetos matemáticos con precisión es un requisito fundamental para aplicaciones STEM posteriores, incluyendo matemáticas, física y química, donde el razonamiento debe culminar en expresiones formalmente estructuradas. Sin embargo, las evaluaciones actuales de LM sobre razonamiento matemático y científico dependen en gran medida de formatos de respuesta simplificados, como valores numéricos u opciones de selección múltiple, debido a la conveniencia de la evaluación automatizada. En este artículo presentamos tres contribuciones para mejorar el razonamiento sobre objetos matemáticos: (i) construimos y publicamos datos de entrenamiento y puntos de referencia para derivar objetos matemáticos, el conjunto *Principia*; (ii) proporcionamos recetas de entrenamiento con jueces y verificadores LLM robustos, donde demostramos que el entrenamiento de jueces *on-policy* mejora el rendimiento; (iii) mostramos cómo el entrenamiento *on-policy* también puede usarse para escalar el cómputo en tiempo de prueba mediante agregación. Encontramos que LM robustos como Qwen3-235B y o3 tienen dificultades con *Principia*, mientras que nuestras recetas de entrenamiento pueden lograr mejoras significativas sobre diferentes arquitecturas LLM base, mejorando simultáneamente los resultados en tareas numéricas y de MCQA existentes, lo que demuestra una generalización transversal de formatos en las habilidades de razonamiento.

English

The ability to precisely derive mathematical objects is a core requirement for downstream STEM applications, including mathematics, physics, and chemistry, where reasoning must culminate in formally structured expressions. Yet, current LM evaluations of mathematical and scientific reasoning rely heavily on simplified answer formats such as numerical values or multiple choice options due to the convenience of automated assessment. In this paper we provide three contributions for improving reasoning over mathematical objects: (i) we build and release training data and benchmarks for deriving mathematical objects, the Principia suite; (ii) we provide training recipes with strong LLM-judges and verifiers, where we show that on-policy judge training boosts performance; (iii) we show how on-policy training can also be used to scale test-time compute via aggregation. We find that strong LMs such as Qwen3-235B and o3 struggle on Principia, while our training recipes can bring significant improvements over different LLM backbones, while simultaneously improving results on existing numerical and MCQA tasks, demonstrating cross-format generalization of reasoning abilities.

Razonamiento sobre objetos matemáticos: modelado de recompensas en política y agregación en tiempo de prueba.

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Resumen

Support