Agente di Ragionamento a Lungo Orizzonte per la Risoluzione di Problemi Matematici a Livello Olimpico
Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving
December 11, 2025
Autori: Songyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno compiuto progressi significativi nella risoluzione di compiti di ragionamento complesso grazie al Reinforcement Learning con Ricompense Verificabili (RLVR). Questo avanzamento è altresì inseparabile dalla supervisione automatizzata fornita da verificatori affidabili. Tuttavia, gli attuali verificatori basati sul risultato (OV) non sono in grado di ispezionare i passaggi intermedi inaffidabili nelle lunghe catene di ragionamento (CoT). Nel frattempo, gli attuali verificatori basati sul processo (PV) incontrano difficoltà nell'individuare in modo affidabile gli errori nelle CoT lunghe e complesse, limitati dalla scarsità di annotazioni di alta qualità a causa dei costi proibitivi delle annotazioni umane. Pertanto, proponiamo il Verificatore di Processo Basato sul Risultato (OPV), che verifica il processo logico dei risultati sintetizzati da CoT lunghe per ottenere una verifica sia accurata che efficiente e consentire annotazioni su larga scala. Per potenziare il verificatore proposto, adottiamo un framework iterativo di active learning con annotazioni esperte per migliorare progressivamente la capacità di verifica dell'OPV con costi di annotazione inferiori. Nello specifico, in ogni iterazione, i casi più incerti del miglior OPV corrente vengono annotati e successivamente utilizzati per addestrare un nuovo OPV tramite Rejection Fine-Tuning (RFT) e RLVR per il round successivo. Esperimenti estensivi dimostrano le prestazioni superiori e l'ampia applicabilità dell'OPV. Esso raggiunge nuovi risultati state-of-the-art sul nostro benchmark \thisbench, superando modelli open-source molto più grandi come Qwen3-Max-Preview con un punteggio F1 di 83,1 rispetto a 76,3. Inoltre, l'OPV rileva efficacemente i falsi positivi all'interno di dataset sintetici, allineandosi strettamente alla valutazione esperta. Quando collabora con modelli policy, l'OPV produce costantemente miglioramenti delle prestazioni, ad esempio, aumentando l'accuratezza di DeepSeek-R1-Distill-Qwen-32B dal 55,2% al 73,3% su AIME2025 man mano che il budget computazionale scala.
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out \thisbench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2\% to 73.3\% on AIME2025 as the compute budget scales.