ChatPaper.aiChatPaper

SCAN: Autoeliminación de Ruido en Anotaciones de Monte Carlo para el Aprendizaje Robusto de Recompensas en Procesos

SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

September 20, 2025
Autores: Yuyang Ding, Xinyu Shi, Juntao Li, Xiaobo Liang, Zhaopeng Tu, Min Zhang
cs.AI

Resumen

Los modelos de recompensa de procesos (PRMs, por sus siglas en inglés) ofrecen evaluaciones detalladas a nivel de paso que facilitan procesos de razonamiento más profundos en modelos de lenguaje de gran escala (LLMs), demostrando ser efectivos en tareas complejas como el razonamiento matemático. Sin embargo, el desarrollo de PRMs es desafiante debido al alto costo y la escalabilidad limitada de los datos anotados por humanos. Los datos sintéticos generados mediante estimación de Monte Carlo (MC) representan una alternativa prometedora, pero adolecen de una alta proporción de ruido, lo que puede causar sobreajuste y dificultar el entrenamiento a gran escala. En este trabajo, realizamos un estudio preliminar sobre la distribución del ruido en datos sintéticos obtenidos mediante estimación MC, identificando que los modelos de anotación tienden tanto a subestimar como a sobreestimar la corrección de los pasos debido a limitaciones en sus capacidades de anotación. Basándonos en estos hallazgos, proponemos Auto-Denoisificación de Anotación Monte Carlo (SCAN, por sus siglas en inglés), un marco eficiente de síntesis de datos y aprendizaje tolerante al ruido. Nuestros principales resultados indican que: (1) Incluso modelos ligeros (por ejemplo, de 1.500 millones de parámetros) pueden producir anotaciones de alta calidad mediante una estrategia de auto-denoisificación, permitiendo que los PRMs alcancen un rendimiento superior con solo el 6% del costo de inferencia requerido por la estimación MC convencional. (2) Con nuestra estrategia de aprendizaje robusto, los PRMs pueden aprender efectivamente a partir de esta supervisión débil, logrando una mejora de 39.2 puntos F1 (de 19.9 a 59.1) en ProcessBench. A pesar de utilizar solo un conjunto de datos sintéticos compacto, nuestros modelos superan a líneas de base sólidas, incluyendo aquellas entrenadas con grandes conjuntos de datos anotados por humanos, como PRM800K. Además, el rendimiento continúa mejorando a medida que escalamos los datos sintéticos, destacando el potencial de SCAN para un entrenamiento escalable, rentable y robusto de PRMs.
English
Process reward models (PRMs) offer fine-grained, step-level evaluations that facilitate deeper reasoning processes in large language models (LLMs), proving effective in complex tasks like mathematical reasoning. However, developing PRMs is challenging due to the high cost and limited scalability of human-annotated data. Synthetic data from Monte Carlo (MC) estimation is a promising alternative but suffers from a high noise ratio, which can cause overfitting and hinder large-scale training. In this work, we conduct a preliminary study on the noise distribution in synthetic data from MC estimation, identifying that annotation models tend to both underestimate and overestimate step correctness due to limitations in their annotation capabilities. Building on these insights, we propose Self-Denoising Monte Carlo Annotation (SCAN), an efficient data synthesis and noise-tolerant learning framework. Our key findings indicate that: (1) Even lightweight models (e.g., 1.5B parameters) can produce high-quality annotations through a self-denoising strategy, enabling PRMs to achieve superior performance with only 6% the inference cost required by vanilla MC estimation. (2) With our robust learning strategy, PRMs can effectively learn from this weak supervision, achieving a 39.2 F1 score improvement (from 19.9 to 59.1) in ProcessBench. Despite using only a compact synthetic dataset, our models surpass strong baselines, including those trained on large-scale human-annotated datasets such as PRM800K. Furthermore, performance continues to improve as we scale up the synthetic data, highlighting the potential of SCAN for scalable, cost-efficient, and robust PRM training.
PDF02September 23, 2025