Raciocínio sobre objetos matemáticos: modelagem de recompensas on-policy e agregação no momento do teste

Resumo

A capacidade de derivar objetos matemáticos com precisão é um requisito fundamental para aplicações STEM subsequentes, incluindo matemática, física e química, onde o raciocínio deve culminar em expressões formalmente estruturadas. No entanto, as avaliações atuais de modelos de linguagem (LM) sobre raciocínio matemático e científico dependem fortemente de formatos de resposta simplificados, como valores numéricos ou opções de múltipla escolha, devido à conveniência da avaliação automatizada. Neste artigo, fornecemos três contribuições para melhorar o raciocínio sobre objetos matemáticos: (i) construímos e disponibilizamos dados de treinamento e benchmarks para derivação de objetos matemáticos, o conjunto *Principia*; (ii) fornecemos receitas de treinamento com *LLM-judges* e verificadores robustos, onde demonstramos que o treinamento *on-policy* do *judge* aumenta o desempenho; (iii) mostramos como o treinamento *on-policy* também pode ser usado para escalar o cálculo em tempo de teste via agregação. Constatamos que LMs robustos, como Qwen3-235B e o3, apresentam dificuldades no *Principia*, enquanto nossas receitas de treinamento podem trazer melhorias significativas em diferentes arquiteturas de LLM, melhorando simultaneamente os resultados em tarefas numéricas e de MCQA existentes, demonstrando a generalização transversal de formatos das habilidades de raciocínio.

English

The ability to precisely derive mathematical objects is a core requirement for downstream STEM applications, including mathematics, physics, and chemistry, where reasoning must culminate in formally structured expressions. Yet, current LM evaluations of mathematical and scientific reasoning rely heavily on simplified answer formats such as numerical values or multiple choice options due to the convenience of automated assessment. In this paper we provide three contributions for improving reasoning over mathematical objects: (i) we build and release training data and benchmarks for deriving mathematical objects, the Principia suite; (ii) we provide training recipes with strong LLM-judges and verifiers, where we show that on-policy judge training boosts performance; (iii) we show how on-policy training can also be used to scale test-time compute via aggregation. We find that strong LMs such as Qwen3-235B and o3 struggle on Principia, while our training recipes can bring significant improvements over different LLM backbones, while simultaneously improving results on existing numerical and MCQA tasks, demonstrating cross-format generalization of reasoning abilities.