Agent de raisonnement à long horizon pour la résolution de problèmes mathématiques de niveau olympiade
Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving
December 11, 2025
papers.authors: Songyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont réalisé des progrès significatifs dans la résolution de tâches de raisonnement complexes grâce au Reinforcement Learning with Verifiable Rewards (RLVR). Cette avancée est également indissociable de la supervision automatisée par des vérificateurs fiables. Cependant, les vérificateurs basés sur les résultats (OV) actuels sont incapables d'inspecter les étapes intermédiaires non fiables dans les longues chaînes de raisonnement (CoT). Parallèlement, les vérificateurs basés sur le processus (PV) actuels éprouvent des difficultés à détecter de manière fiable les erreurs dans les CoT longues et complexes, limités par la rareté des annotations de haute qualité due aux coûts prohibitifs des annotations humaines. Par conséquent, nous proposons le Vérificateur de Processus Basé sur les Résultats (OPV), qui vérifie le processus rationnel des résultats résumés issus de longues CoT pour atteindre une vérification à la fois précise et efficace et permettre une annotation à grande échelle. Pour renforcer ce vérificateur, nous adoptons un cadre d'apprentissage actif itératif avec des annotations d'experts pour améliorer progressivement la capacité de vérification de l'OPV avec moins de coûts d'annotation. Spécifiquement, à chaque itération, les cas les plus incertains du meilleur OPV actuel sont annotés puis utilisés pour entraîner un nouvel OPV via Rejection Fine-Tuning (RFT) et RLVR pour le tour suivant. Des expériences approfondies démontrent la performance supérieure et la large applicabilité de l'OPV. Il établit de nouveaux records sur notre benchmark \thisbench, surpassant des modèles open-source bien plus grands comme Qwen3-Max-Preview avec un score F1 de 83,1 contre 76,3. De plus, l'OPV détecte efficacement les faux positifs dans les ensembles de données synthétiques, en étroite adéquation avec l'évaluation experte. Lorsqu'il collabore avec des modèles politiques, l'OPV génère constamment des gains de performance, par exemple en faisant passer la précision de DeepSeek-R1-Distill-Qwen-32B de 55,2 % à 73,3 % sur AIME2025 à mesure que le budget de calcul augmente.
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out \thisbench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2\% to 73.3\% on AIME2025 as the compute budget scales.