SCAN : Auto-dénonisation Monte-Carlo pour l'annotation et l'apprentissage robuste des récompenses de processus
SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning
September 20, 2025
papers.authors: Yuyang Ding, Xinyu Shi, Juntao Li, Xiaobo Liang, Zhaopeng Tu, Min Zhang
cs.AI
papers.abstract
Les modèles de récompense de processus (PRM) offrent des évaluations granulaires au niveau des étapes, facilitant des processus de raisonnement plus approfondis dans les grands modèles de langage (LLM), et s'avèrent efficaces pour des tâches complexes comme le raisonnement mathématique. Cependant, le développement des PRM est difficile en raison du coût élevé et de la scalabilité limitée des données annotées par des humains. Les données synthétiques issues de l'estimation de Monte Carlo (MC) constituent une alternative prometteuse, mais souffrent d'un ratio de bruit élevé, ce qui peut entraîner un surapprentissage et entraver l'entraînement à grande échelle. Dans ce travail, nous menons une étude préliminaire sur la distribution du bruit dans les données synthétiques issues de l'estimation MC, identifiant que les modèles d'annotation ont tendance à sous-estimer et surestimer la correction des étapes en raison des limites de leurs capacités d'annotation. Sur la base de ces observations, nous proposons l'annotation Monte Carlo auto-dénoyautée (SCAN), un cadre efficace de synthèse de données et d'apprentissage tolérant au bruit. Nos principales conclusions indiquent que : (1) Même des modèles légers (par exemple, 1,5 milliard de paramètres) peuvent produire des annotations de haute qualité grâce à une stratégie auto-dénoyautée, permettant aux PRM d'atteindre des performances supérieures avec seulement 6 % du coût d'inférence requis par l'estimation MC classique. (2) Avec notre stratégie d'apprentissage robuste, les PRM peuvent apprendre efficacement à partir de cette supervision faible, obtenant une amélioration de 39,2 points F1 (de 19,9 à 59,1) dans ProcessBench. Malgré l'utilisation d'un seul jeu de données synthétiques compact, nos modèles surpassent des bases de référence solides, y compris celles entraînées sur des jeux de données annotés par des humains à grande échelle comme PRM800K. De plus, les performances continuent de s'améliorer à mesure que nous augmentons les données synthétiques, mettant en évidence le potentiel de SCAN pour un entraînement des PRM scalable, rentable et robuste.
English
Process reward models (PRMs) offer fine-grained, step-level evaluations that
facilitate deeper reasoning processes in large language models (LLMs), proving
effective in complex tasks like mathematical reasoning. However, developing
PRMs is challenging due to the high cost and limited scalability of
human-annotated data. Synthetic data from Monte Carlo (MC) estimation is a
promising alternative but suffers from a high noise ratio, which can cause
overfitting and hinder large-scale training. In this work, we conduct a
preliminary study on the noise distribution in synthetic data from MC
estimation, identifying that annotation models tend to both underestimate and
overestimate step correctness due to limitations in their annotation
capabilities. Building on these insights, we propose Self-Denoising Monte Carlo
Annotation (SCAN), an efficient data synthesis and noise-tolerant learning
framework. Our key findings indicate that: (1) Even lightweight models (e.g.,
1.5B parameters) can produce high-quality annotations through a self-denoising
strategy, enabling PRMs to achieve superior performance with only 6% the
inference cost required by vanilla MC estimation. (2) With our robust learning
strategy, PRMs can effectively learn from this weak supervision, achieving a
39.2 F1 score improvement (from 19.9 to 59.1) in ProcessBench. Despite using
only a compact synthetic dataset, our models surpass strong baselines,
including those trained on large-scale human-annotated datasets such as
PRM800K. Furthermore, performance continues to improve as we scale up the
synthetic data, highlighting the potential of SCAN for scalable,
cost-efficient, and robust PRM training.