Modelos de Recompensa de Procesos que Piensan

Resumen

Los verificadores paso a paso, también conocidos como modelos de recompensa por proceso (PRMs, por sus siglas en inglés), son un componente clave para el escalamiento en tiempo de prueba. Los PRMs requieren supervisión a nivel de paso, lo que los hace costosos de entrenar. Este trabajo tiene como objetivo construir PRMs eficientes en términos de datos como modelos de recompensa verbalizados paso a paso que verifican cada paso en la solución generando una cadena de pensamiento (CoT) de verificación. Proponemos ThinkPRM, un verificador de CoT largo ajustado con órdenes de magnitud menos etiquetas de proceso que las requeridas por los PRMs discriminativos. Nuestro enfoque aprovecha las habilidades de razonamiento inherentes de los modelos de CoT largo y supera a los enfoques de LLM-como-juez y verificadores discriminativos, utilizando solo el 1% de las etiquetas de proceso en PRM800K, en varios benchmarks desafiantes. Específicamente, ThinkPRM supera a las líneas base en ProcessBench, MATH-500 y AIME '24 bajo selección de mejor-de-N y búsqueda guiada por recompensa. En una evaluación fuera de dominio en un subconjunto de GPQA-Diamond y LiveCodeBench, nuestro PRM supera a los verificadores discriminativos entrenados con el conjunto completo de PRM800K en un 8% y 4.5%, respectivamente. Por último, con el mismo presupuesto de tokens, ThinkPRM escala el cómputo de verificación de manera más efectiva en comparación con LLM-como-juez, superándolo en un 7.2% en un subconjunto de ProcessBench. Nuestro trabajo destaca el valor de los PRMs generativos de CoT largo que pueden escalar el cómputo de verificación en tiempo de prueba mientras requieren una supervisión mínima para el entrenamiento. Nuestro código, datos y modelos serán publicados en https://github.com/mukhal/thinkprm.

English

Step-by-step verifiers -- also known as process reward models (PRMs) -- are a key ingredient for test-time scaling. PRMs require step-level supervision, making them expensive to train. This work aims to build data-efficient PRMs as verbalized step-wise reward models that verify every step in the solution by generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long CoT verifier fine-tuned on orders of magnitude fewer process labels than those required by discriminative PRMs. Our approach capitalizes on the inherent reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and discriminative verifiers -- using only 1% of the process labels in PRM800K -- across several challenging benchmarks. Specifically, ThinkPRM beats the baselines on ProcessBench, MATH-500, and AIME '24 under best-of-N selection and reward-guided search. In an out-of-domain evaluation on a subset of GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the same token budget, ThinkPRM scales up verification compute more effectively compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of ProcessBench. Our work highlights the value of generative, long CoT PRMs that can scale test-time compute for verification while requiring minimal supervision for training. Our code, data, and models will be released at https://github.com/mukhal/thinkprm.

Modelos de Recompensa de Procesos que Piensan

Process Reward Models That Think

Resumen

Support