Langfristig planender Agent für mathematische Problemstellungen auf Olympiade-Niveau
Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving
December 11, 2025
papers.authors: Songyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) bedeutende Fortschritte bei der Lösung komplexer Denkaufgaben erzielt. Dieser Fortschritt ist ebenfalls untrennbar mit der durch zuverlässige Verifizierer automatisierten Überprüfung verbunden. Allerdings sind aktuelle ergebnisbasierte Verifizierer (OVs) nicht in der Lage, die unzuverlässigen Zwischenschritte in langen Denkketten (Chains of Thought, CoTs) zu überprüfen. Gleichzeitig haben aktuelle prozessbasierte Verifizierer (PVs) Schwierigkeiten, Fehler in komplexen, langen CoTs zuverlässig zu erkennen, was durch den Mangel an hochwertigen Annotationen aufgrund der prohibitiv hohen Kosten menschlicher Annotationsarbeit begrenzt wird. Daher schlagen wir den ergebnisbasierten Prozessverifizierer (Outcome-based Process Verifier, OPV) vor, der den Begründungsprozess zusammengefasster Ergebnisse aus langen CoTs überprüft, um sowohl eine präzise als auch effiziente Verifikation zu erreichen und eine großskalige Annotation zu ermöglichen. Um den vorgeschlagenen Verifizierer zu befähigen, setzen wir einen iterativen Active-Learning-Ansatz mit Expertenannotationen ein, um die Verifikationsfähigkeit von OPV schrittweise mit geringeren Annotationskosten zu verbessern. Konkret werden in jeder Iteration die unsichersten Fälle des aktuell besten OPV annotiert und anschließend genutzt, um durch Rejection Fine-Tuning (RFT) und RLVR einen neuen OPV für die nächste Runde zu trainieren. Umfangreiche Experimente belegen die überlegene Leistung und breite Anwendbarkeit von OPV. Er erzielt neue state-of-the-art Ergebnisse auf unserem zurückgehaltenen \thisbench und übertrifft deutlich größere Open-Source-Modelle wie Qwen3-Max-Preview mit einem F1-Score von 83,1 gegenüber 76,3. Darüber hinaus erkennt OPV effektiv False Positives in synthetischen Datensätzen, was eng mit der Bewertung durch Experten übereinstimmt. Bei der Zusammenarbeit mit Policy-Modeln erzielt OPV durchgängig Leistungssteigerungen, z. B. steigert er die Genauigkeit von DeepSeek-R1-Distill-Qwen-32B auf AIME2025 von 55,2 % auf 73,3 %, wenn sich das Rechenbudget erhöht.
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out \thisbench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2\% to 73.3\% on AIME2025 as the compute budget scales.