ChatPaper.aiChatPaper

올림피아드 수준 수학 문제 해결을 위한 장기 추론 에이전트

Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

December 11, 2025
저자: Songyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen
cs.AI

초록

대규모 언어 모델(LLM)은 검증 가능한 보상 강화 학습(RLVR)을 통해 복잡한 추론 과제 해결에 있어 상당한 진전을 이루었습니다. 이러한 발전은 신뢰할 수 있는 검증기로 자동화된 감독과도 분리할 수 없습니다. 그러나 현재의 결과 기반 검증기(OV)는 긴 사고 연쇄(CoT) 내 신뢰할 수 없는 중간 단계를 검증하지 못합니다. 한편, 현재의 과정 기반 검증기(PV)는 인간 주해의 막대한 비용으로 인한 고품질 주해 데이터의 부족으로 제한되어 복잡한 장문 CoT의 오류를 신뢰성 있게 탐지하는 데 어려움을 겪습니다. 따라서 본 연구에서는 장문 CoT에서 도출된 결과의 근거 과정을 검증하여 정확하고 효율적인 검증과 대규모 주해를 가능하게 하는 결과 기반 과정 검증기(OPV)를 제안합니다. 제안된 검증기의 성능을 높이기 위해 전문가 주해와 함께 반복적 능동 학습 프레임워크를 도입하여 더 적은 주해 비용으로 OPV의 검증 능력을 점진적으로 향상시킵니다. 구체적으로, 각 반복에서 현재 최고 OPV의 가장 불확실한 사례에 주해를 수행한 후, 이를 거부 미세 조정(RFT) 및 RLVR을 통해 다음 라운드를 위한 새로운 OPV를 학습하는 데 사용합니다. 다양한 실험을 통해 OPV의 우수한 성능과 광범위한 적용 가능성을 입증했습니다. OPV는 보유한 \thisbench에서 F1 점수 76.3점을 기록한 Qwen3-Max-Preview 등 훨씬 더 큰 오픈소스 모델을 능가하는 83.1점의 F1 점수로 새로운 최첨단 결과를 달성했습니다. 더 나아가 OPV는 합성 데이터셋 내 오탐지를 효과적으로 감지하며 전문가 평가와 밀접하게 일치했습니다. 정책 모델과 협력할 때 OPV는 일관된 성능 향상을 가져왔으며, 예를 들어 계산 예산이 확장됨에 따라 AIME2025에서 DeepSeek-R1-Distill-Qwen-32B의 정확도를 55.2%에서 73.3%로 향상시켰습니다.
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out \thisbench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2\% to 73.3\% on AIME2025 as the compute budget scales.
PDF371December 13, 2025