SCAN: Anotação de Monte Carlo com Auto-Desnuízação para Aprendizado Robusto de Recompensas de Processo
SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning
September 20, 2025
Autores: Yuyang Ding, Xinyu Shi, Juntao Li, Xiaobo Liang, Zhaopeng Tu, Min Zhang
cs.AI
Resumo
Modelos de recompensa de processo (PRMs) oferecem avaliações refinadas em nível de etapa que facilitam processos de raciocínio mais profundos em modelos de linguagem de grande escala (LLMs), demonstrando eficácia em tarefas complexas como raciocínio matemático. No entanto, o desenvolvimento de PRMs é desafiador devido ao alto custo e à escalabilidade limitada de dados anotados por humanos. Dados sintéticos provenientes de estimativas de Monte Carlo (MC) são uma alternativa promissora, mas sofrem com uma alta taxa de ruído, o que pode causar sobreajuste e dificultar o treinamento em larga escala. Neste trabalho, realizamos um estudo preliminar sobre a distribuição de ruído em dados sintéticos de estimativas MC, identificando que modelos de anotação tendem a subestimar e superestimar a correção das etapas devido a limitações em suas capacidades de anotação. Com base nessas descobertas, propomos o Self-Denoising Monte Carlo Annotation (SCAN), uma estrutura eficiente de síntese de dados e aprendizado tolerante a ruído. Nossas principais conclusões indicam que: (1) Mesmo modelos leves (por exemplo, 1,5 bilhão de parâmetros) podem produzir anotações de alta qualidade por meio de uma estratégia de auto-denoising, permitindo que PRMs alcancem desempenho superior com apenas 6% do custo de inferência exigido pela estimativa MC tradicional. (2) Com nossa estratégia robusta de aprendizado, PRMs podem aprender efetivamente com essa supervisão fraca, alcançando uma melhoria de 39,2 pontos F1 (de 19,9 para 59,1) no ProcessBench. Apesar de usar apenas um conjunto de dados sintéticos compacto, nossos modelos superam baselines fortes, incluindo aqueles treinados em grandes conjuntos de dados anotados por humanos, como o PRM800K. Além disso, o desempenho continua a melhorar à medida que escalamos os dados sintéticos, destacando o potencial do SCAN para treinamento de PRMs escalável, econômico e robusto.
English
Process reward models (PRMs) offer fine-grained, step-level evaluations that
facilitate deeper reasoning processes in large language models (LLMs), proving
effective in complex tasks like mathematical reasoning. However, developing
PRMs is challenging due to the high cost and limited scalability of
human-annotated data. Synthetic data from Monte Carlo (MC) estimation is a
promising alternative but suffers from a high noise ratio, which can cause
overfitting and hinder large-scale training. In this work, we conduct a
preliminary study on the noise distribution in synthetic data from MC
estimation, identifying that annotation models tend to both underestimate and
overestimate step correctness due to limitations in their annotation
capabilities. Building on these insights, we propose Self-Denoising Monte Carlo
Annotation (SCAN), an efficient data synthesis and noise-tolerant learning
framework. Our key findings indicate that: (1) Even lightweight models (e.g.,
1.5B parameters) can produce high-quality annotations through a self-denoising
strategy, enabling PRMs to achieve superior performance with only 6% the
inference cost required by vanilla MC estimation. (2) With our robust learning
strategy, PRMs can effectively learn from this weak supervision, achieving a
39.2 F1 score improvement (from 19.9 to 59.1) in ProcessBench. Despite using
only a compact synthetic dataset, our models surpass strong baselines,
including those trained on large-scale human-annotated datasets such as
PRM800K. Furthermore, performance continues to improve as we scale up the
synthetic data, highlighting the potential of SCAN for scalable,
cost-efficient, and robust PRM training.