Redeneren over wiskundige objecten: on-policy beloningsmodellering en aggregatie tijdens testtijd

Samenvatting

Het nauwkeurig kunnen afleiden van wiskundige objecten is een kernvereiste voor downstream STEM-toepassingen, waaronder wiskunde, natuurkunde en scheikunde, waarbij redenering moet uitmonden in formeel gestructureerde uitdrukkingen. Toch baseren huidige evaluaties van wiskundig en wetenschappelijk redeneervermogen van taalmodelen zich sterk op vereenvoudigde antwoordformaten zoals numerieke waarden of meerkeuzeopties vanwege het gemak van geautomatiseerde beoordeling. In dit artikel leveren wij drie bijdragen ter verbetering van het redeneren over wiskundige objecten: (i) wij bouwen en publiceren trainingsdata en benchmarks voor het afleiden van wiskundige objecten, de Principia-suite; (ii) wij bieden trainingsrecepten met sterke LLM-beoordelaars en verifiers, waarbij wij aantonen dat on-policy training van beoordelaars de prestaties verbetert; (iii) wij tonen aan hoe on-policy training ook kan worden gebruikt om rekencapaciteit tijdens testtijd op te schalen via aggregatie. Wij constateren dat sterke taalmodelen zoals Qwen3-235B en o3 moeite hebben met Principia, terwijl onze trainingsrecepten significante verbeteringen kunnen brengen op verschillende LLM-backbones, tegelijkertijd de resultaten op bestaande numerieke en MCQA-taken verbeteren, wat de kruisformaatgeneralistatie van redeneervaardigheden aantoont.

English

The ability to precisely derive mathematical objects is a core requirement for downstream STEM applications, including mathematics, physics, and chemistry, where reasoning must culminate in formally structured expressions. Yet, current LM evaluations of mathematical and scientific reasoning rely heavily on simplified answer formats such as numerical values or multiple choice options due to the convenience of automated assessment. In this paper we provide three contributions for improving reasoning over mathematical objects: (i) we build and release training data and benchmarks for deriving mathematical objects, the Principia suite; (ii) we provide training recipes with strong LLM-judges and verifiers, where we show that on-policy judge training boosts performance; (iii) we show how on-policy training can also be used to scale test-time compute via aggregation. We find that strong LMs such as Qwen3-235B and o3 struggle on Principia, while our training recipes can bring significant improvements over different LLM backbones, while simultaneously improving results on existing numerical and MCQA tasks, demonstrating cross-format generalization of reasoning abilities.

Redeneren over wiskundige objecten: on-policy beloningsmodellering en aggregatie tijdens testtijd

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Samenvatting

Support