SCAN : Auto-dénonisation Monte-Carlo pour l'annotation et l'apprentissage robuste des récompenses de processus

papers.abstract

Les modèles de récompense de processus (PRM) offrent des évaluations granulaires au niveau des étapes, facilitant des processus de raisonnement plus approfondis dans les grands modèles de langage (LLM), et s'avèrent efficaces pour des tâches complexes comme le raisonnement mathématique. Cependant, le développement des PRM est difficile en raison du coût élevé et de la scalabilité limitée des données annotées par des humains. Les données synthétiques issues de l'estimation de Monte Carlo (MC) constituent une alternative prometteuse, mais souffrent d'un ratio de bruit élevé, ce qui peut entraîner un surapprentissage et entraver l'entraînement à grande échelle. Dans ce travail, nous menons une étude préliminaire sur la distribution du bruit dans les données synthétiques issues de l'estimation MC, identifiant que les modèles d'annotation ont tendance à sous-estimer et surestimer la correction des étapes en raison des limites de leurs capacités d'annotation. Sur la base de ces observations, nous proposons l'annotation Monte Carlo auto-dénoyautée (SCAN), un cadre efficace de synthèse de données et d'apprentissage tolérant au bruit. Nos principales conclusions indiquent que : (1) Même des modèles légers (par exemple, 1,5 milliard de paramètres) peuvent produire des annotations de haute qualité grâce à une stratégie auto-dénoyautée, permettant aux PRM d'atteindre des performances supérieures avec seulement 6 % du coût d'inférence requis par l'estimation MC classique. (2) Avec notre stratégie d'apprentissage robuste, les PRM peuvent apprendre efficacement à partir de cette supervision faible, obtenant une amélioration de 39,2 points F1 (de 19,9 à 59,1) dans ProcessBench. Malgré l'utilisation d'un seul jeu de données synthétiques compact, nos modèles surpassent des bases de référence solides, y compris celles entraînées sur des jeux de données annotés par des humains à grande échelle comme PRM800K. De plus, les performances continuent de s'améliorer à mesure que nous augmentons les données synthétiques, mettant en évidence le potentiel de SCAN pour un entraînement des PRM scalable, rentable et robuste.

English

Process reward models (PRMs) offer fine-grained, step-level evaluations that facilitate deeper reasoning processes in large language models (LLMs), proving effective in complex tasks like mathematical reasoning. However, developing PRMs is challenging due to the high cost and limited scalability of human-annotated data. Synthetic data from Monte Carlo (MC) estimation is a promising alternative but suffers from a high noise ratio, which can cause overfitting and hinder large-scale training. In this work, we conduct a preliminary study on the noise distribution in synthetic data from MC estimation, identifying that annotation models tend to both underestimate and overestimate step correctness due to limitations in their annotation capabilities. Building on these insights, we propose Self-Denoising Monte Carlo Annotation (SCAN), an efficient data synthesis and noise-tolerant learning framework. Our key findings indicate that: (1) Even lightweight models (e.g., 1.5B parameters) can produce high-quality annotations through a self-denoising strategy, enabling PRMs to achieve superior performance with only 6% the inference cost required by vanilla MC estimation. (2) With our robust learning strategy, PRMs can effectively learn from this weak supervision, achieving a 39.2 F1 score improvement (from 19.9 to 59.1) in ProcessBench. Despite using only a compact synthetic dataset, our models surpass strong baselines, including those trained on large-scale human-annotated datasets such as PRM800K. Furthermore, performance continues to improve as we scale up the synthetic data, highlighting the potential of SCAN for scalable, cost-efficient, and robust PRM training.

SCAN : Auto-dénonisation Monte-Carlo pour l'annotation et l'apprentissage robuste des récompenses de processus

SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

papers.abstract

Support