OPV: Resultaatgerichte Procesverifier voor Efficiënte Verificatie van Lange Gedachteketens
OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification
December 11, 2025
Auteurs: Zijian Wu, Lingkai Kong, Wenwei Zhang, Songyang Gao, Yuzhe Gu, Zhongrui Cai, Tianyou Ma, Yuhong Liu, Zhi Wang, Runyuan Ma, Guangyu Wang, Wei Li, Conghui He, Dahua Lin, Kai Chen
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt bij het oplossen van complexe redeneertaken door Reinforcement Learning met Verifieerbare Beloningen (RLVR). Deze vooruitgang is eveneens onlosmakelijk verbonden met het toezicht geautomatiseerd door betrouwbare verifiers. Huidige resultaatgebaseerde verifiers (OV's) zijn echter niet in staat om de onbetrouwbare tussenstappen in de lange redeneerketens (CoT's) te controleren. Tegelijkertijd hebben huidige procesgebaseerde verifiers (PV's) moeite om fouten in complexe lange CoT's betrouwbaar op te sporen, beperkt door de schaarste aan hoogwaardige annotaties vanwege de buitensporige kosten van menselijke annotaties. Daarom stellen we de Outcome-based Process Verifier (OPV) voor, die het onderliggende redeneerproces van samengevatte uitkomsten uit lange CoT's verifieert om zowel nauwkeurige als efficiënte verificatie te bereiken en grootschalige annotatie mogelijk te maken. Om de voorgestelde verifier kracht bij te zetten, hanteren we een iteratief active learning-raamwerk met expertannotaties om de verificatiecapaciteit van OPV geleidelijk te verbeteren met minder annotatiekosten. Concreet worden in elke iteratie de meest onzekere gevallen van de huidige beste OPV geannoteerd en vervolgens gebruikt om een nieuwe OPV te trainen via Rejection Fine-Tuning (RFT) en RLVR voor de volgende ronde. Uitgebreide experimenten tonen de superieure prestaties en brede toepasbaarheid van OPV aan. Het behaalt nieuwe state-of-the-art resultaten op onze achtergehouden OPV-Bench, waarbij het grotere open-source modellen zoals Qwen3-Max-Preview overtreft met een F1-score van 83,1 tegenover 76,3. Bovendien detecteert OPV effectief false positives binnen synthetische datasets, in nauwe overeenstemming met expertbeoordeling. Bij samenwerking met policy-modellen levert OPV consistente prestatieverbeteringen op, bijvoorbeeld door de nauwkeurigheid van DeepSeek-R1-Distill-Qwen-32B te verhogen van 55,2% naar 73,3% op AIME2025 naarmate het rekenbudget toeneemt.
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out OPV-Bench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2% to 73.3% on AIME2025 as the compute budget scales.