ChatPaper.aiChatPaper

OPV:効率的な長い連鎖思考検証のための成果ベースプロセス検証器

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

December 11, 2025
著者: Zijian Wu, Lingkai Kong, Wenwei Zhang, Songyang Gao, Yuzhe Gu, Zhongrui Cai, Tianyou Ma, Yuhong Liu, Zhi Wang, Runyuan Ma, Guangyu Wang, Wei Li, Conghui He, Dahua Lin, Kai Chen
cs.AI

要旨

大規模言語モデル(LLM)は、検証可能な報酬による強化学習(RLVR)を通じて、複雑な推論タスクの解決において著しい進展を遂げている。この進歩は、信頼性の高い検証器による自動化された監視からも切り離せない。しかしながら、現在の結果ベース検証器(OV)は、思考連鎖(CoT)の長い推論過程における信頼性の低い中間ステップを検査できない。一方、現在のプロセスベース検証器(PV)は、人的アノテーションの膨大なコストにより高品質な注釈が不足していることから、複雑で長いCoTにおける誤りの検出を確実に行うことが困難である。そこで我々は、長いCoTから要約された結果の論理プロセスを検証する結果ベースプロセス検証器(OPV)を提案し、正確かつ効率的な検証と大規模な注釈付けを実現する。提案する検証器を強化するため、専門家の注釈を用いた反復的な能動学習フレームワークを採用し、より少ない注釈コストでOPVの検証能力を段階的に向上させる。具体的には各反復で、現在の最良OPVが最も不確実なケースに注釈を付与し、その後リジェクト微調整(RFT)とRLVRを通じて新たなOPVを訓練し、次のラウンドに備える。大規模な実験により、OPVの優れた性能と幅広い適用性が実証された。OPVは自社開発のOPV-Benchにおいて新たな最先端結果を達成し、Qwen3-Max-Previewのようなはるかに大規模なオープンソースモデル(F1スコア76.3)を上回る83.1のF1スコアを記録した。さらにOPVは合成データセット内の偽陽性を効果的に検出し、専門家評価と高い一致を示した。政策モデルと連携する場合、OPVは一貫して性能向上をもたらし、例えば計算予算の拡大に伴いAIME2025におけるDeepSeek-R1-Distill-Qwen-32Bの精度を55.2%から73.3%に向上させた。
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out OPV-Bench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2% to 73.3% on AIME2025 as the compute budget scales.
PDF301December 13, 2025