OPV: 효율적인 장기 사고 연쇄 검증을 위한 결과 기반 프로세스 검증기
OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification
December 11, 2025
저자: Zijian Wu, Lingkai Kong, Wenwei Zhang, Songyang Gao, Yuzhe Gu, Zhongrui Cai, Tianyou Ma, Yuhong Liu, Zhi Wang, Runyuan Ma, Guangyu Wang, Wei Li, Conghui He, Dahua Lin, Kai Chen
cs.AI
초록
대규모 언어 모델(LLM)은 검증 가능한 보상 강화 학습(RLVR)을 통해 복잡한 추론 과제 해결에 있어 상당한 진전을 이루었습니다. 이러한 발전은 신뢰할 수 있는 검증자의 자동화된 감독과도 떼려야 뗄 수 없는 관계에 있습니다. 그러나 현재의 결과 기반 검증자(OV)는 긴 사고 연쇄(CoT) 내에서 신뢰할 수 없는 중간 단계들을 검증하지 못합니다. 한편, 현재의 과정 기반 검증자(PV)는 인간 주석의 막대한 비용으로 인한 고품질 주석의 부족으로 제한되어, 복잡한 장문 CoT에서 오류를 신뢰성 있게 탐지하는 데 어려움을 겪고 있습니다. 따라서 우리는 장문 CoT에서 도출된 결과를 요약하여 그 근거 과정을 검증함으로써 정확하고 효율적인 검증과 대규모 주석 생성을 동시에 달성하는 결과 기반 과정 검증자(OPV)를 제안합니다. 제안된 검증자의 성능을 높이기 위해, 우리는 전문가 주석을 활용한 반복적 능동 학습 프레임워크를 도입하여 더 적은 주석 비용으로 OPV의 검증 능력을 점진적으로 향상시킵니다. 구체적으로, 각 반복 단계에서 현재 최고 성능의 OPV가 가장 불확실하게 판단한 사례에 주석을 달고, 이를 이후 거부 미세 조정(RFT)과 RLVR을 통해 다음 라운드용 새로운 OPV를 학습하는 데 사용합니다. 폭넓은 실험을 통해 OPV의 우수한 성능과广泛的 적용 가능성이 입증되었습니다. OPV는 우리의 보유 데이터셋 OPV-Bench에서 새로운 최첨단 결과를 달성했으며, F1 점수 기준 Qwen3-Max-Preview와 같은 훨씬 더 큰 오픈소스 모델의 76.3에 비해 83.1의 성능으로 앞섰습니다. 더 나아가, OPV는 합성 데이터셋 내에서 오탐지를 효과적으로 걸러내어 전문가 평가와 밀접하게 일치했습니다. 정책 모델과 협업할 때, OPV는 일관되게 성능 향상을 가져왔으며, 예를 들어 계산 예산이 증가함에 따라 AIME2025에서 DeepSeek-R1-Distill-Qwen-32B의 정확도를 55.2%에서 73.3%로 높였습니다.
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out OPV-Bench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2% to 73.3% on AIME2025 as the compute budget scales.