Modèles de Récompense de Processus Non Supervisés

Résumé

Les Modèles de Récompense de Processus (MRP, ou PRM en anglais) constituent un mécanisme puissant pour orienter le raisonnement des grands modèles de langage en fournissant une supervision fine et au niveau des étapes. Cependant, cette efficacité a un coût significatif : les PRM nécessitent des annotations d'experts pour chaque étape de raisonnement, ce qui les rend coûteux et difficiles à passer à l'échelle. Dans cet article, nous proposons une méthode pour entraîner des PRM non supervisés (uPRM) qui ne requiert aucune supervision humaine, ni au niveau des annotations étape par étape, ni par la vérification des réponses finales par vérité terrain. L'idée clé de notre approche est de définir une fonction de score, dérivée des probabilités de prochain token des LLM, qui évalue conjointement les positions candidates des premières étapes erronées sur un lot de trajectoires de raisonnement. Nous démontrons l'efficacité d'uPRM dans divers scénarios : (i) uPRM obtient jusqu'à 15 % d'amélioration absolue de la précision par rapport à LLM-as-a-Judge dans l'identification des premières étapes erronées sur l'ensemble de données ProcessBench ; (ii) en tant que vérificateur pour la mise à l'échelle au moment du test, uPRM se comporte de manière comparable aux PRM supervisés et surpasse la baseline du vote majoritaire jusqu'à 6,9 % ; (iii) lorsqu'il est utilisé comme signal de récompense en apprentissage par renforcement, uPRM permet une optimisation de politique plus robuste tout au long de l'entraînement par rapport à un PRM supervisé entraîné avec des étiquettes de vérité terrain. Dans l'ensemble, nos résultats ouvrent une voie vers une modélisation de récompense scalable pour des tâches de raisonnement complexes.

English

Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them costly and difficult to scale. Here, we propose a method for training unsupervised PRMs (uPRM) that requires no human supervision, neither at the level of step-by-step annotations nor through ground-truth verification of final answers. The key idea behind our approach is to define a scoring function, derived from LLM next-token probabilities, that jointly assesses candidate positions of first erroneous steps across a batch of reasoning trajectories. We demonstrate the effectiveness of uPRM across diverse scenarios: (i) uPRM achieves up to 15% absolute accuracy improvements over the LLM-as-a-Judge in identifying first erroneous steps on the ProcessBench dataset; (ii) as a verifier for test-time scaling, uPRM performs comparably to supervised PRMs and outperforms the majority voting baseline by up to 6.9%, and (iii) when used as a reward signal in reinforcement learning, uPRM enables more robust policy optimization throughout training compared to a supervised PRM trained using ground-truth labels. Overall, our results open a path toward scalable reward modeling for complex reasoning tasks.