Schlussfolgern über mathematische Objekte: On-Policy-Reward-Modellierung und Testzeit-Aggregation

Zusammenfassung

Die Fähigkeit, mathematische Objekte präzise abzuleiten, ist eine Kernanforderung für nachgelagerte MINT-Anwendungen, einschließlich Mathematik, Physik und Chemie, bei denen das logische Schließen in formal strukturierten Ausdrücken münden muss. Dennoch stützen sich aktuelle Evaluierungen mathematischen und naturwissenschaftlichen Denkens in Sprachmodellen stark auf vereinfachte Antwortformate wie numerische Werte oder Multiple-Choice-Optionen, was der Bequemlichkeit automatisierter Bewertung geschuldet ist. In diesem Artikel leisten wir drei Beiträge zur Verbesserung des logischen Schließens über mathematische Objekte: (i) Wir erstellen und veröffentlichen Trainingsdaten und Benchmarks für die Ableitung mathematischer Objekte, die Principia-Suite; (ii) Wir stellen Trainingsmethoden mit starken LLM-Juroren und Verifizierern bereit und zeigen, dass On-Policy-Jury-Training die Leistung steigert; (iii) Wir demonstrieren, wie On-Policy-Training auch zur Skalierung des Testzeit-Rechenaufwands durch Aggregation genutzt werden kann. Wir stellen fest, dass starke Sprachmodelle wie Qwen3-235B und o3 bei Principia Schwierigkeiten haben, während unsere Trainingsmethoden signifikante Verbesserungen über verschiedene LLM-Backbones hinweg erzielen und gleichzeitig die Ergebnisse bei bestehenden numerischen und MCQA-Aufgaben verbessern, was eine formatübergreifende Generalisierung der Denkfähigkeiten demonstriert.

English

The ability to precisely derive mathematical objects is a core requirement for downstream STEM applications, including mathematics, physics, and chemistry, where reasoning must culminate in formally structured expressions. Yet, current LM evaluations of mathematical and scientific reasoning rely heavily on simplified answer formats such as numerical values or multiple choice options due to the convenience of automated assessment. In this paper we provide three contributions for improving reasoning over mathematical objects: (i) we build and release training data and benchmarks for deriving mathematical objects, the Principia suite; (ii) we provide training recipes with strong LLM-judges and verifiers, where we show that on-policy judge training boosts performance; (iii) we show how on-policy training can also be used to scale test-time compute via aggregation. We find that strong LMs such as Qwen3-235B and o3 struggle on Principia, while our training recipes can bring significant improvements over different LLM backbones, while simultaneously improving results on existing numerical and MCQA tasks, demonstrating cross-format generalization of reasoning abilities.

Schlussfolgern über mathematische Objekte: On-Policy-Reward-Modellierung und Testzeit-Aggregation

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Zusammenfassung

Support