Модели вознаграждения процессов, способные к рассуждению

Аннотация

Пошаговые верификаторы, также известные как модели пошагового вознаграждения (PRMs), являются ключевым компонентом для масштабирования на этапе тестирования. PRMs требуют пошагового контроля, что делает их обучение дорогостоящим. Данная работа направлена на создание эффективных с точки зрения данных PRMs в виде вербализованных пошаговых моделей вознаграждения, которые проверяют каждый шаг решения, генерируя цепочку рассуждений (CoT) для верификации. Мы предлагаем ThinkPRM — длинный CoT-верификатор, дообученный на значительно меньшем количестве меток процесса по сравнению с дискриминативными PRMs. Наш подход использует присущие длинным CoT-моделям способности к рассуждению и превосходит подходы LLM-as-a-Judge и дискриминативные верификаторы, используя всего 1% меток процесса из PRM800K, на нескольких сложных бенчмарках. В частности, ThinkPRM превосходит базовые методы на ProcessBench, MATH-500 и AIME '24 при использовании стратегий best-of-N и поиска с учетом вознаграждения. В кросс-доменной оценке на подмножествах GPQA-Diamond и LiveCodeBench наш PRM превосходит дискриминативные верификаторы, обученные на полном наборе PRM800K, на 8% и 4,5% соответственно. Наконец, при одинаковом бюджете токенов ThinkPRM более эффективно масштабирует вычислительные ресурсы для верификации по сравнению с LLM-as-a-Judge, превосходя его на 7,2% на подмножестве ProcessBench. Наша работа подчеркивает ценность генеративных длинных CoT PRMs, которые могут масштабировать вычислительные ресурсы для верификации на этапе тестирования, требуя минимального контроля при обучении. Наш код, данные и модели будут доступны по адресу https://github.com/mukhal/thinkprm.

English

Step-by-step verifiers -- also known as process reward models (PRMs) -- are a key ingredient for test-time scaling. PRMs require step-level supervision, making them expensive to train. This work aims to build data-efficient PRMs as verbalized step-wise reward models that verify every step in the solution by generating a verification chain-of-thought (CoT). We propose ThinkPRM, a long CoT verifier fine-tuned on orders of magnitude fewer process labels than those required by discriminative PRMs. Our approach capitalizes on the inherent reasoning abilities of long CoT models, and outperforms LLM-as-a-Judge and discriminative verifiers -- using only 1% of the process labels in PRM800K -- across several challenging benchmarks. Specifically, ThinkPRM beats the baselines on ProcessBench, MATH-500, and AIME '24 under best-of-N selection and reward-guided search. In an out-of-domain evaluation on a subset of GPQA-Diamond and LiveCodeBench, our PRM surpasses discriminative verifiers trained on the full PRM800K by 8% and 4.5%, respectively. Lastly, under the same token budget, ThinkPRM scales up verification compute more effectively compared to LLM-as-a-Judge, outperforming it by 7.2% on a subset of ProcessBench. Our work highlights the value of generative, long CoT PRMs that can scale test-time compute for verification while requiring minimal supervision for training. Our code, data, and models will be released at https://github.com/mukhal/thinkprm.

Модели вознаграждения процессов, способные к рассуждению

Process Reward Models That Think

Аннотация

Support