Modelos de Recompensa de Processo que Pensam

Resumo

Verificadores passo a passo -- também conhecidos como modelos de recompensa de processo (PRMs) -- são um ingrediente fundamental para a escalabilidade durante o teste. PRMs exigem supervisão em nível de etapa, tornando-os caros para treinar. Este trabalho visa construir PRMs eficientes em termos de dados como modelos de recompensa verbalizados passo a passo que verificam cada etapa da solução gerando uma cadeia de pensamento (CoT) de verificação. Propomos o ThinkPRM, um verificador de CoT longo ajustado com uma ordem de magnitude menor de rótulos de processo em comparação com os exigidos por PRMs discriminativos. Nossa abordagem aproveita as habilidades inerentes de raciocínio dos modelos de CoT longo e supera o LLM-as-a-Judge e verificadores discriminativos -- usando apenas 1% dos rótulos de processo do PRM800K -- em vários benchmarks desafiadores. Especificamente, o ThinkPRM supera as baselines no ProcessBench, MATH-500 e AIME '24 sob seleção best-of-N e busca guiada por recompensa. Em uma avaliação fora do domínio em um subconjunto do GPQA-Diamond e LiveCodeBench, nosso PRM supera verificadores discriminativos treinados com o PRM800K completo em 8% e 4,5%, respectivamente. Por fim, sob o mesmo orçamento de tokens, o ThinkPRM escala o cálculo de verificação de forma mais eficaz em comparação com o LLM-as-a-Judge, superando-o em 7,2% em um subconjunto do ProcessBench. Nosso trabalho destaca o valor dos PRMs generativos de CoT longo que podem escalar o cálculo de verificação durante o teste enquanto exigem supervisão mínima para o treinamento. Nosso código, dados e modelos serão liberados em https://github.com/mukhal/thinkprm.

English

Step-by-step verifiers -- also known as process reward models (PRMs) -- are a key ingredient for test-time scaling. PRMs require step-level supervision, making them expensive to train. This work aims to build data-efficient PRMs as verbalized step-wise reward models that verify every step in the solution by generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long CoT verifier fine-tuned on orders of magnitude fewer process labels than those required by discriminative PRMs. Our approach capitalizes on the inherent reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and discriminative verifiers -- using only 1% of the process labels in PRM800K -- across several challenging benchmarks. Specifically, ThinkPRM beats the baselines on ProcessBench, MATH-500, and AIME '24 under best-of-N selection and reward-guided search. In an out-of-domain evaluation on a subset of GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the same token budget, ThinkPRM scales up verification compute more effectively compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of ProcessBench. Our work highlights the value of generative, long CoT PRMs that can scale test-time compute for verification while requiring minimal supervision for training. Our code, data, and models will be released at https://github.com/mukhal/thinkprm.

Modelos de Recompensa de Processo que Pensam

Process Reward Models That Think

Resumo

Summary

Support

Support