OPV: Верификация процессов на основе результатов для эффективной проверки длинных цепочек рассуждений
OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification
December 11, 2025
Авторы: Zijian Wu, Lingkai Kong, Wenwei Zhang, Songyang Gao, Yuzhe Gu, Zhongrui Cai, Tianyou Ma, Yuhong Liu, Zhi Wang, Runyuan Ma, Guangyu Wang, Wei Li, Conghui He, Dahua Lin, Kai Chen
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли значительного прогресса в решении сложных задач логического вывода благодаря обучению с подкреплением на основе проверяемых вознаграждений (RLVR). Этот прогресс также неотделим от автоматизированного контроля, осуществляемого надежными верификаторами. Однако современные верификаторы, основанные на результате (OV), не способны проверять ненадежные промежуточные шаги в длинных цепочках рассуждений (CoT). В то же время современные процессно-ориентированные верификаторы (PV) сталкиваются с трудностями в надежном обнаружении ошибок в сложных длинных CoT, что ограничено нехваткой высококачественных аннотаций из-за непомерно высоких затрат на ручное аннотирование. Поэтому мы предлагаем Верификатор Процесса на Основе Результата (OPV), который проверяет логику процесса по агрегированным результатам из длинных CoT для достижения как точной, так и эффективной верификации и обеспечения масштабируемого аннотирования. Для повышения эффективности предложенного верификатора мы применяем итеративную схему активного обучения с привлечением экспертов для аннотирования, чтобы постепенно улучшать проверочную способность OPV при меньших затратах на разметку. Конкретно, на каждой итерации аннотируются наиболее неопределенные примеры для текущей лучшей модели OPV, которые затем используются для обучения новой модели OPV с помощью Тонкой Настройки с Отклонением (RFT) и RLVR для следующего раунда. Многочисленные эксперименты демонстрируют превосходную производительность и широкую применимость OPV. Модель устанавливает новые рекорды на нашем наборе данных OPV-Bench, превосходя значительно более крупные открытые модели, такие как Qwen3-Max-Preview, с показателем F1 83.1 против 76.3. Кроме того, OPV эффективно выявляет ложные срабатывания в синтетических наборах данных, что тесно согласуется с оценкой экспертов. При совместной работе с моделями-агентами OPV стабильно приводит к повышению производительности, например, увеличивая точность модели DeepSeek-R1-Distill-Qwen-32B с 55.2% до 73.3% на тесте AIME2025 по мере увеличения вычислительного бюджета.
English
Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out OPV-Bench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2% to 73.3% on AIME2025 as the compute budget scales.