ChatPaper.aiChatPaper

Langetermijnredeneeragent voor het Oplossen van Wiskundige Problemen op Olympiadeniveau

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

December 11, 2025
Auteurs: Songyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen
cs.AI

Samenvatting

Grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt bij het oplossen van complexe redeneertaken door Reinforcement Learning met Verifieerbare Beloningen (RLVR). Deze vooruitgang is ook onlosmakelijk verbonden met het toezicht dat wordt geautomatiseerd door betrouwbare verifiers. Huidige resultaatgebaseerde verifiers (OV's) zijn echter niet in staat om de onbetrouwbare tussenstappen in de lange redeneerketens (CoT's) te controleren. Tegelijkertijd hebben huidige procesgebaseerde verifiers (PV's) moeite om fouten in complexe lange CoT's betrouwbaar op te sporen, beperkt door de schaarste aan hoogwaardige annotaties als gevolg van de buitensporige kosten van menselijke annotaties. Daarom stellen we de Outcome-based Process Verifier (OPV) voor, die het redeneerproces van samengevatte uitkomsten uit lange CoT's verifieert om zowel nauwkeurige als efficiënte verificatie te bereiken en grootschalige annotatie mogelijk te maken. Om de voorgestelde verifier te versterken, nemen we een iteratief active learning-framework met expertannotaties over om de verificatiecapaciteit van OPV geleidelijk te verbeteren met minder annotatiekosten. Specifiek worden in elke iteratie de meest onzekere gevallen van de huidige beste OPV geannoteerd en vervolgens gebruikt om een nieuwe OPV te trainen via Rejection Fine-Tuning (RFT) en RLVR voor de volgende ronde. Uitgebreide experimenten tonen de superieure prestaties en brede toepasbaarheid van OPV aan. Het behaalt nieuwe state-of-the-art resultaten op onze achtergehouden \thisbench, en presteert beter dan veel grotere open-source modellen zoals Qwen3-Max-Preview met een F1-score van 83,1 tegenover 76,3. Bovendien detecteert OPV effectief false positives binnen synthetische datasets, wat nauw aansluit bij de beoordeling door experts. Bij samenwerking met policy-modellen levert OPV consistente prestatieverbeteringen op, bijvoorbeeld door de nauwkeurigheid van DeepSeek-R1-Distill-Qwen-32B te verhogen van 55,2% naar 73,3% op AIME2025 naarmate het rekenbudget toeneemt.
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out \thisbench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2\% to 73.3\% on AIME2025 as the compute budget scales.
PDF371December 13, 2025