Modelos de Recompensa de Processo Não Supervisionados

Resumo

Modelos de Recompensa de Processo (PRMs) são um mecanismo poderoso para orientar o raciocínio de modelos de linguagem de grande porte, fornecendo supervisão granular em nível de etapa. No entanto, essa eficácia tem um custo significativo: os PRMs exigem anotações de especialistas para cada etapa do raciocínio, tornando-os caros e difíceis de escalar. Aqui, propomos um método para treinar PRMs não supervisionados (uPRM) que não requer supervisão humana, nem no nível de anotações passo a passo, nem por meio de verificação da resposta final com base em ground truth. A ideia central de nossa abordagem é definir uma função de pontuação, derivada das probabilidades de próximo token do LLM, que avalia conjuntamente posições candidatas dos primeiros passos errôneos em um lote de trajetórias de raciocínio. Demonstramos a eficácia do uPRM em diversos cenários: (i) o uPRM alcança ganhos de até 15% de acurácia absoluta em relação ao LLM-como-Juiz na identificação dos primeiros passos errôneos no conjunto de dados ProcessBench; (ii) como verificador para escalonamento em tempo de teste, o uPRM apresenta desempenho comparável a PRMs supervisionados e supera a linha de base de votação majoritária em até 6,9%; e (iii) quando usado como sinal de recompensa em aprendizado por reforço, o uPRM permite uma otimização de política mais robusta ao longo do treinamento em comparação a um PRM supervisionado treinado com rótulos de ground truth. No geral, nossos resultados abrem caminho para uma modelagem de recompensa escalável em tarefas de raciocínio complexas.

English

Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them costly and difficult to scale. Here, we propose a method for training unsupervised PRMs (uPRM) that requires no human supervision, neither at the level of step-by-step annotations nor through ground-truth verification of final answers. The key idea behind our approach is to define a scoring function, derived from LLM next-token probabilities, that jointly assesses candidate positions of first erroneous steps across a batch of reasoning trajectories. We demonstrate the effectiveness of uPRM across diverse scenarios: (i) uPRM achieves up to 15% absolute accuracy improvements over the LLM-as-a-Judge in identifying first erroneous steps on the ProcessBench dataset; (ii) as a verifier for test-time scaling, uPRM performs comparably to supervised PRMs and outperforms the majority voting baseline by up to 6.9%, and (iii) when used as a reward signal in reinforcement learning, uPRM enables more robust policy optimization throughout training compared to a supervised PRM trained using ground-truth labels. Overall, our results open a path toward scalable reward modeling for complex reasoning tasks.