ChatPaper.aiChatPaper

長期的推論エージェントによるオリンピック級数学問題解決

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

December 11, 2025
著者: Songyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen
cs.AI

要旨

大規模言語モデル(LLM)は、検証可能な報酬を用いた強化学習(RLVR)によって複雑な推論タスクの解決において著しい進展を遂げている。この進歩は、信頼性の高い検証器による自動化された監視からも切り離せない。しかし、現在の結果ベース検証器(OV)は、思考連鎖(CoT)の長い推論過程における信頼性の低い中間ステップを検査できない。一方、現在のプロセスベース検証器(PV)は、人的アノテーションのコストが膨大であることから高品質なアノテーションが不足しているため、複雑で長いCoTにおける誤りを確実に検出するのが困難である。そこで我々は、長いCoTから要約された結果の論理プロセスを検証する「結果ベース・プロセス検証器(OPV)」を提案し、正確かつ効率的な検証と大規模なアノテーションを実現する。提案する検証器を強化するため、専門家のアノテーションを伴う反復的な能動学習フレームワークを採用し、少ないアノテーションコストでOPVの検証能力を段階的に向上させる。具体的には、各反復において、現在の最良のOPVが最も不確実なケースにアノテーションを付与し、その後、拒否微調整(RFT)とRLVRを通じて次のラウンドに向けた新たなOPVを学習させる。大規模な実験により、OPVの優れた性能と幅広い適用性が実証された。OPVは、保持しておいた\thisbench において新たなstate-of-the-artを達成し、Qwen3-Max-Previewのようなはるかに大規模なオープンソースモデルをF1スコア83.1対76.3で上回った。さらにOPVは、合成データセット内の偽陽性を効果的に検出し、専門家の評価と高い一致を示した。政策モデルと連携する場合、OPVは一貫して性能向上をもたらし、例えば計算予算が拡大するにつれて、AIME2025におけるDeepSeek-R1-Distill-Qwen-32Bの精度を55.2%から73.3%に引き上げた。
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out \thisbench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2\% to 73.3\% on AIME2025 as the compute budget scales.
PDF371December 13, 2025