Agente de Raciocínio de Longo Horizonte para Resolução de Problemas Matemáticos de Nível Olímpico

Resumo

Os grandes modelos de linguagem (LLMs) alcançaram progressos significativos na resolução de tarefas complexas de raciocínio através do Reforço de Aprendizagem com Recompensas Verificáveis (RLVR). Este avanço também é inseparável da supervisão automatizada por verificadores confiáveis. No entanto, os verificadores baseados em resultados (OVs) atuais são incapazes de inspecionar as etapas intermediárias não confiáveis nas longas cadeias de raciocínio (CoTs). Entretanto, os verificadores baseados em processo (PVs) atuais têm dificuldades em detectar erros de forma confiável nas longas e complexas CoTs, limitados pela escassez de anotações de alta qualidade devido aos custos proibitivos das anotações humanas. Portanto, propomos o Verificador de Processo Baseado em Resultado (OPV), que verifica o processo racional dos resultados resumidos a partir de longas CoTs para alcançar uma verificação precisa e eficiente e permitir anotações em larga escala. Para capacitar o verificador proposto, adotamos uma estrutura iterativa de aprendizagem ativa com anotações de especialistas para melhorar progressivamente a capacidade de verificação do OPV com menores custos de anotação. Especificamente, em cada iteração, os casos mais incertos do melhor OPV atual são anotados e subsequentemente usados para treinar um novo OPV através da Ajuste Fino por Rejeição (RFT) e RLVR para a próxima rodada. Experimentos extensivos demonstram o desempenho superior e a ampla aplicabilidade do OPV. Ele alcança novos resultados de estado da arte em nosso \thisbench mantido, superando modelos de código aberto muito maiores, como o Qwen3-Max-Preview, com um score F1 de 83,1 em comparação com 76,3. Além disso, o OPV detecta efetivamente falsos positivos dentro do conjunto de dados sintéticos, alinhando-se de perto com a avaliação de especialistas. Ao colaborar com modelos de política, o OPV gera consistentemente ganhos de desempenho, por exemplo, elevando a precisão do DeepSeek-R1-Distill-Qwen-32B de 55,2% para 73,3% na AIME2025 à medida que o orçamento computacional escala.

English

Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV's superior performance and broad applicability. It achieves new state-of-the-art results on our held-out \thisbench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2\% to 73.3\% on AIME2025 as the compute budget scales.