Modelli di Processo per la Ricompensa che Ragionano
Process Reward Models That Think
April 23, 2025
Autori: Muhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
Abstract
I verificatori passo-passo -- noti anche come modelli di ricompensa basati sul processo (PRM) -- rappresentano un ingrediente chiave per il ridimensionamento durante il test. I PRM richiedono una supervisione a livello di passaggio, rendendoli costosi da addestrare. Questo lavoro mira a costruire PRM efficienti dal punto di vista dei dati come modelli di ricompensa verbali passo-passo che verificano ogni fase della soluzione generando una catena di pensiero (CoT) di verifica. Proponiamo ThinkPRM, un verificatore a lunga CoT fine-tunato su un numero di etichette di processo significativamente inferiore rispetto a quello richiesto dai PRM discriminativi. Il nostro approccio sfrutta le capacità di ragionamento intrinseche dei modelli a lunga CoT e supera sia i giudizi basati su LLM (LLM-as-a-Judge) che i verificatori discriminativi -- utilizzando solo l'1% delle etichette di processo in PRM800K -- su diversi benchmark impegnativi. Nello specifico, ThinkPRM batte i baseline su ProcessBench, MATH-500 e AIME '24 sia nella selezione best-of-N che nella ricerca guidata dalla ricompensa. In una valutazione fuori dominio su un sottoinsieme di GPQA-Diamond e LiveCodeBench, il nostro PRM supera i verificatori discriminativi addestrati sull'intero PRM800K rispettivamente dell'8% e del 4,5%. Infine, con lo stesso budget di token, ThinkPRM scala il calcolo di verifica in modo più efficace rispetto a LLM-as-a-Judge, superandolo del 7,2% su un sottoinsieme di ProcessBench. Il nostro lavoro evidenzia il valore dei PRM generativi a lunga CoT, che possono scalare il calcolo di verifica durante il test richiedendo una supervisione minima per l'addestramento. Il nostro codice, i dati e i modelli saranno rilasciati su https://github.com/mukhal/thinkprm.
English
Step-by-step verifiers -- also known as process reward models (PRMs) -- are a
key ingredient for test-time scaling. PRMs require step-level supervision,
making them expensive to train. This work aims to build data-efficient PRMs as
verbalized step-wise reward models that verify every step in the solution by
generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long
CoT verifier fine-tuned on orders of magnitude fewer process labels than those
required by discriminative PRMs. Our approach capitalizes on the inherent
reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and
discriminative verifiers -- using only 1% of the process labels in PRM800K --
across several challenging benchmarks. Specifically, ThinkPRM beats the
baselines on ProcessBench, MATH-500, and AIME '24 under best-of-N selection and
reward-guided search. In an out-of-domain evaluation on a subset of
GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers
trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the
same token budget, ThinkPRM scales up verification compute more effectively
compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of
ProcessBench. Our work highlights the value of generative, long CoT PRMs that
can scale test-time compute for verification while requiring minimal
supervision for training. Our code, data, and models will be released at
https://github.com/mukhal/thinkprm.Summary
AI-Generated Summary