SCAN: Anotação de Monte Carlo com Auto-Desnuízação para Aprendizado Robusto de Recompensas de Processo

Resumo

Modelos de recompensa de processo (PRMs) oferecem avaliações refinadas em nível de etapa que facilitam processos de raciocínio mais profundos em modelos de linguagem de grande escala (LLMs), demonstrando eficácia em tarefas complexas como raciocínio matemático. No entanto, o desenvolvimento de PRMs é desafiador devido ao alto custo e à escalabilidade limitada de dados anotados por humanos. Dados sintéticos provenientes de estimativas de Monte Carlo (MC) são uma alternativa promissora, mas sofrem com uma alta taxa de ruído, o que pode causar sobreajuste e dificultar o treinamento em larga escala. Neste trabalho, realizamos um estudo preliminar sobre a distribuição de ruído em dados sintéticos de estimativas MC, identificando que modelos de anotação tendem a subestimar e superestimar a correção das etapas devido a limitações em suas capacidades de anotação. Com base nessas descobertas, propomos o Self-Denoising Monte Carlo Annotation (SCAN), uma estrutura eficiente de síntese de dados e aprendizado tolerante a ruído. Nossas principais conclusões indicam que: (1) Mesmo modelos leves (por exemplo, 1,5 bilhão de parâmetros) podem produzir anotações de alta qualidade por meio de uma estratégia de auto-denoising, permitindo que PRMs alcancem desempenho superior com apenas 6% do custo de inferência exigido pela estimativa MC tradicional. (2) Com nossa estratégia robusta de aprendizado, PRMs podem aprender efetivamente com essa supervisão fraca, alcançando uma melhoria de 39,2 pontos F1 (de 19,9 para 59,1) no ProcessBench. Apesar de usar apenas um conjunto de dados sintéticos compacto, nossos modelos superam baselines fortes, incluindo aqueles treinados em grandes conjuntos de dados anotados por humanos, como o PRM800K. Além disso, o desempenho continua a melhorar à medida que escalamos os dados sintéticos, destacando o potencial do SCAN para treinamento de PRMs escalável, econômico e robusto.

English

Process reward models (PRMs) offer fine-grained, step-level evaluations that facilitate deeper reasoning processes in large language models (LLMs), proving effective in complex tasks like mathematical reasoning. However, developing PRMs is challenging due to the high cost and limited scalability of human-annotated data. Synthetic data from Monte Carlo (MC) estimation is a promising alternative but suffers from a high noise ratio, which can cause overfitting and hinder large-scale training. In this work, we conduct a preliminary study on the noise distribution in synthetic data from MC estimation, identifying that annotation models tend to both underestimate and overestimate step correctness due to limitations in their annotation capabilities. Building on these insights, we propose Self-Denoising Monte Carlo Annotation (SCAN), an efficient data synthesis and noise-tolerant learning framework. Our key findings indicate that: (1) Even lightweight models (e.g., 1.5B parameters) can produce high-quality annotations through a self-denoising strategy, enabling PRMs to achieve superior performance with only 6% the inference cost required by vanilla MC estimation. (2) With our robust learning strategy, PRMs can effectively learn from this weak supervision, achieving a 39.2 F1 score improvement (from 19.9 to 59.1) in ProcessBench. Despite using only a compact synthetic dataset, our models surpass strong baselines, including those trained on large-scale human-annotated datasets such as PRM800K. Furthermore, performance continues to improve as we scale up the synthetic data, highlighting the potential of SCAN for scalable, cost-efficient, and robust PRM training.

SCAN: Anotação de Monte Carlo com Auto-Desnuízação para Aprendizado Robusto de Recompensas de Processo

SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

Resumo

Support