Modelos de Recompensa de Proceso No Supervisados

Resumen

Los Modelos de Recompensa de Proceso (PRMs) constituyen un mecanismo potente para guiar el razonamiento de modelos de lenguaje de gran escala al proporcionar una supervisión detallada a nivel de pasos. Sin embargo, esta efectividad conlleva un costo significativo: los PRMs requieren anotaciones de expertos para cada paso de razonamiento, lo que los hace costosos y difíciles de escalar. En este trabajo, proponemos un método para entrenar PRMs no supervisados (uPRM) que no requiere supervisión humana, ni a nivel de anotaciones paso a paso ni mediante la verificación de la respuesta final con la verdad fundamental. La idea clave detrás de nuestro enfoque es definir una función de puntuación, derivada de las probabilidades del siguiente token del LLM, que evalúe conjuntamente las posiciones candidatas de los primeros pasos erróneos en un lote de trayectorias de razonamiento. Demostramos la efectividad de uPRM en diversos escenarios: (i) uPRM logra mejoras de precisión absoluta de hasta un 15% en comparación con el método LLM como juez para identificar los primeros pasos erróneos en el conjunto de datos ProcessBench; (ii) como verificador para el escalado en tiempo de prueba, uPRM se desempeña de manera comparable a los PRMs supervisados y supera la línea base de votación mayoritaria en hasta un 6,9%; y (iii) cuando se utiliza como señal de recompensa en aprendizaje por refuerzo, uPRM permite una optimización de políticas más robusta durante todo el entrenamiento en comparación con un PRM supervisado entrenado con etiquetas de verdad fundamental. En conjunto, nuestros resultados abren un camino hacia el modelado de recompensas escalable para tareas de razonamiento complejas.

English

Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them costly and difficult to scale. Here, we propose a method for training unsupervised PRMs (uPRM) that requires no human supervision, neither at the level of step-by-step annotations nor through ground-truth verification of final answers. The key idea behind our approach is to define a scoring function, derived from LLM next-token probabilities, that jointly assesses candidate positions of first erroneous steps across a batch of reasoning trajectories. We demonstrate the effectiveness of uPRM across diverse scenarios: (i) uPRM achieves up to 15% absolute accuracy improvements over the LLM-as-a-Judge in identifying first erroneous steps on the ProcessBench dataset; (ii) as a verifier for test-time scaling, uPRM performs comparably to supervised PRMs and outperforms the majority voting baseline by up to 6.9%, and (iii) when used as a reward signal in reinforcement learning, uPRM enables more robust policy optimization throughout training compared to a supervised PRM trained using ground-truth labels. Overall, our results open a path toward scalable reward modeling for complex reasoning tasks.