OPV: Ergebnisbasierter Prozessverifizierer für effiziente Verifikation langer Gedankenketten

papers.abstract

Große Sprachmodelle (LLMs) haben durch Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) bedeutende Fortschritte bei der Lösung komplexer Denkaufgaben erzielt. Dieser Fortschritt ist ebenfalls untrennbar mit der durch zuverlässige Verifizierer automatisierten Überwachung verbunden. Allerdings sind aktuelle ergebnisbasierte Verifizierer (OVs) nicht in der Lage, die unzuverlässigen Zwischenschritte in langen Denkketten (Chains of Thought, CoTs) zu überprüfen. Gleichzeitig haben aktuelle prozessbasierte Verifizierer (PVs) Schwierigkeiten, Fehler in komplexen, langen CoTs zuverlässig zu erkennen, was durch den Mangel an hochwertigen Annotationen aufgrund der prohibitiv hohen Kosten menschlicher Anmerkungen begrenzt ist. Daher schlagen wir den ergebnisbasierten Prozessverifizierer (Outcome-based Process Verifier, OPV) vor, der den Begründungsprozess zusammengefasster Ergebnisse aus langen CoTs überprüft, um sowohl eine genaue als auch effiziente Verifikation zu erreichen und eine großskalige Annotation zu ermöglichen. Um den vorgeschlagenen Verifizierer zu befähigen, setzen wir einen iterativen Active-Learning-Rahmen mit Expertenannotationen ein, um die Verifikationsfähigkeit von OPV schrittweise mit geringeren Annotationskosten zu verbessern. Konkret werden in jeder Iteration die unsichersten Fälle des aktuell besten OPV annotiert und anschließend verwendet, um durch Rejection Fine-Tuning (RFT) und RLVR einen neuen OPV für die nächste Runde zu trainieren. Umfangreiche Experimente demonstrieren die überlegene Leistung und breite Anwendbarkeit von OPV. Es erzielt neue state-of-the-art Ergebnisse auf unserem zurückgehaltenen OPV-Bench und übertrifft deutlich größere Open-Source-Modelle wie Qwen3-Max-Preview mit einem F1-Score von 83,1 gegenüber 76,3. Des Weiteren erkennt OPV effektiv falsch-positive Ergebnisse innerhalb synthetischer Datensätze, was eng mit der Expertenbewertung übereinstimmt. Bei der Zusammenarbeit mit Policy-Modellen erzielt OPV durchgängig Leistungssteigerungen, z.B. steigert es die Genauigkeit von DeepSeek-R1-Distill-Qwen-32B auf AIME2025 von 55,2 % auf 73,3 %, wenn sich das Rechenbudget erhöht.

English

Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out OPV-Bench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2% to 73.3% on AIME2025 as the compute budget scales.

OPV: Ergebnisbasierter Prozessverifizierer für effiziente Verifikation langer Gedankenketten

OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

papers.abstract

Support