Raisonnement sur les objets mathématiques : modélisation des récompenses en politique active et agrégation au moment du test

Résumé

La capacité à dériver précisément des objets mathématiques est une exigence fondamentale pour les applications en STEM en aval, incluant les mathématiques, la physique et la chimie, où le raisonnement doit aboutir à des expressions formellement structurées. Pourtant, les évaluations actuelles des modèles de langage (LM) en raisonnement mathématique et scientifique reposent largement sur des formats de réponse simplifiés, tels que des valeurs numériques ou des questions à choix multiples, en raison de la commodité de l'évaluation automatisée. Dans cet article, nous apportons trois contributions pour améliorer le raisonnement sur les objets mathématiques : (i) nous construisons et publions des données d'entraînement et des benchmarks pour la dérivation d'objets mathématiques, la suite Principia ; (ii) nous proposons des protocoles d'entraînement avec des juges et vérificateurs LLM performants, et montrons qu'un entraînement des juges sur-politique améliore les performances ; (iii) nous montrons comment l'entraînement sur-politique peut également être utilisé pour augmenter le calcul au moment du test via l'agrégation. Nous constatons que des LM performants comme Qwen3-235B et o3 éprouvent des difficultés sur Principia, tandis que nos protocoles d'entraînement permettent des améliorations significatives sur différentes architectures de LLM, tout en améliorant simultanément les résultats sur les tâches numériques et de QCM existantes, démontrant ainsi une généralisation trans-format des capacités de raisonnement.

English

The ability to precisely derive mathematical objects is a core requirement for downstream STEM applications, including mathematics, physics, and chemistry, where reasoning must culminate in formally structured expressions. Yet, current LM evaluations of mathematical and scientific reasoning rely heavily on simplified answer formats such as numerical values or multiple choice options due to the convenience of automated assessment. In this paper we provide three contributions for improving reasoning over mathematical objects: (i) we build and release training data and benchmarks for deriving mathematical objects, the Principia suite; (ii) we provide training recipes with strong LLM-judges and verifiers, where we show that on-policy judge training boosts performance; (iii) we show how on-policy training can also be used to scale test-time compute via aggregation. We find that strong LMs such as Qwen3-235B and o3 struggle on Principia, while our training recipes can bring significant improvements over different LLM backbones, while simultaneously improving results on existing numerical and MCQA tasks, demonstrating cross-format generalization of reasoning abilities.

Raisonnement sur les objets mathématiques : modélisation des récompenses en politique active et agrégation au moment du test

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Résumé

Support