Ongesuperviseerde procesbeloningsmodellen

Samenvatting

Procesbeloningsmodellen (PRMs) zijn een krachtig mechanisme om de redenering van grote taalmodellen te sturen door gedetailleerde, stapsgewijze supervisie te bieden. Deze effectiviteit gaat echter gepaard met aanzienlijke kosten: PRMs vereisen expertannotaties voor elke redeneerstap, wat ze kostbaar en moeilijk schaalbaar maakt. Hier stellen we een methode voor om ongesuperviseerde PRMs (uPRM) te trainen die geen menselijke supervisie vereist, noch op het niveau van stapsgewijze annotaties, noch via verificatie van de grondwaarheid van eindantwoorden. Het kernidee achter onze aanpak is het definiëren van een scorefunctie, afgeleid van de volgende-token kansen van LLMs, die gezamenlijk kandidaatposities van eerste foutieve stappen in een batch van redeneertrajecten beoordeelt. We demonstreren de effectiviteit van uPRM in diverse scenario's: (i) uPRM behaalt tot 15% absolute nauwkeurigheidsverbeteringen ten opzichte van de LLM-as-a-Judge bij het identificeren van eerste foutieve stappen op de ProcessBench-dataset; (ii) als verificateur voor testtijdschaling presteert uPRM vergelijkbaar met gesuperviseerde PRMs en presteert het tot 6,9% beter dan de meerderheidsstemmingsbasislijn; en (iii) wanneer gebruikt als beloningssignaal in versterkend leren, maakt uPRM robuustere beleidsoptimalisatie gedurende de training mogelijk in vergelijking met een gesuperviseerde PRM die getraind is met grondwaarheidslabels. Al met al opent onze resultaten een pad naar schaalbare beloningsmodellering voor complexe redeneertaken.

English

Process Reward Models (PRMs) are a powerful mechanism for steering large language model reasoning by providing fine-grained, step-level supervision. However, this effectiveness comes at a significant cost: PRMs require expert annotations for every reasoning step, making them costly and difficult to scale. Here, we propose a method for training unsupervised PRMs (uPRM) that requires no human supervision, neither at the level of step-by-step annotations nor through ground-truth verification of final answers. The key idea behind our approach is to define a scoring function, derived from LLM next-token probabilities, that jointly assesses candidate positions of first erroneous steps across a batch of reasoning trajectories. We demonstrate the effectiveness of uPRM across diverse scenarios: (i) uPRM achieves up to 15% absolute accuracy improvements over the LLM-as-a-Judge in identifying first erroneous steps on the ProcessBench dataset; (ii) as a verifier for test-time scaling, uPRM performs comparably to supervised PRMs and outperforms the majority voting baseline by up to 6.9%, and (iii) when used as a reward signal in reinforcement learning, uPRM enables more robust policy optimization throughout training compared to a supervised PRM trained using ground-truth labels. Overall, our results open a path toward scalable reward modeling for complex reasoning tasks.