数学的対象に対する推論:オン方策報酬モデリングとテスト時集約
Reasoning over mathematical objects: on-policy reward modeling and test time aggregation
March 19, 2026
著者: Pranjal Aggarwal, Marjan Ghazvininejad, Seungone Kim, Ilia Kulikov, Jack Lanchantin, Xian Li, Tianjian Li, Bo Liu, Graham Neubig, Anaelia Ovalle, Swarnadeep Saha, Sainbayar Sukhbaatar, Sean Welleck, Jason Weston, Chenxi Whitehouse, Adina Williams, Jing Xu, Ping Yu, Weizhe Yuan, Jingyu Zhang, Wenting Zhao
cs.AI
要旨
数学的対象を精密に導出する能力は、数学・物理学・化学を含む下流STEM応用における中核的な要件であり、推論は形式的に構造化された表現で完結しなければならない。しかし現在の数学的・科学的推論に関する言語モデル評価は、自動評価の利便性から数値や多肢選択式といった簡略化された解答形式に大きく依存している。本論文では、数学的対象に対する推論を改善するための3つの貢献を行う:(i) 数学的対象の導出に関する訓練データとベンチマーク「Principiaスイート」を構築し公開する;(ii) 強力なLLM判定器と検証器を用いた訓練レシピを提供し、方策オン型の判定器訓練が性能を向上させることを示す;(iii) 方策オン型訓練が集約によるテスト時計算量のスケーリングにも活用できる方法を示す。Qwen3-235Bやo3のような強力な言語モデルでもPrincipiaでは苦戦する一方、我々の訓練レシピが様々なLLM基盤モデルで大幅な改善をもたらし、既存の数値計算や多肢選択問題の結果も同時に向上させ、推論能力の形式横断的な一般化を実証する。
English
The ability to precisely derive mathematical objects is a core requirement for downstream STEM applications, including mathematics, physics, and chemistry, where reasoning must culminate in formally structured expressions. Yet, current LM evaluations of mathematical and scientific reasoning rely heavily on simplified answer formats such as numerical values or multiple choice options due to the convenience of automated assessment. In this paper we provide three contributions for improving reasoning over mathematical objects: (i) we build and release training data and benchmarks for deriving mathematical objects, the Principia suite; (ii) we provide training recipes with strong LLM-judges and verifiers, where we show that on-policy judge training boosts performance; (iii) we show how on-policy training can also be used to scale test-time compute via aggregation. We find that strong LMs such as Qwen3-235B and o3 struggle on Principia, while our training recipes can bring significant improvements over different LLM backbones, while simultaneously improving results on existing numerical and MCQA tasks, demonstrating cross-format generalization of reasoning abilities.