Уроки разработки моделей вознаграждения процесса в математическом
мышленииThe Lessons of Developing Process Reward Models in Mathematical
Reasoning
Модели вознаграждения за процесс (PRM) выступают как многообещающий подход для надзора за процессом в математическом рассуждении крупных языковых моделей (LLM), которые направлены на выявление и уменьшение промежуточных ошибок в процессах рассуждения. Однако разработка эффективных PRM сталкивается с существенными проблемами, особенно в области аннотации данных и методологий оценки. В данной статье, через обширные эксперименты, мы демонстрируем, что широко используемый синтез данных на основе оценки методом Монте-Карло (MC) для PRM обычно дает более низкую производительность и обобщение по сравнению с LLM-как-судья и методами аннотации человека. Оценка методом Монте-Карло полагается на модели завершения для оценки правильности текущего шага, что приводит к неточной верификации шага. Более того, мы выявляем потенциальные предвзятости в традиционных стратегиях оценки Лучшего-из-N (BoN) для PRM: (1) Ненадежные модели политики генерируют ответы с правильными ответами, но с дефектными процессами, что приводит к несоответствию между критериями оценки BoN и целями PRM по верификации процесса. (2) Терпимость PRM к таким ответам приводит к завышенным оценкам BoN. (3) Существующие PRM имеют значительную долю минимальных баллов, сосредоточенных на шагах окончательного ответа, что раскрывает сдвиг от оценки процесса к оценке результата в оптимизированных PRM по BoN. Для решения этих проблем мы разрабатываем механизм консенсусной фильтрации, который эффективно интегрирует оценку методом Монте-Карло с LLM-как-судья и пропагандирует более всестороннюю систему оценки, объединяющую метрики на уровне ответа и на уровне шага. Основываясь на этих механизмах, мы значительно улучшаем как производительность модели, так и эффективность данных в оценке BoN и задаче идентификации ошибок по шагам. Наконец, мы выпускаем новый передовой PRM, который превосходит существующие альтернативы с открытым исходным кодом и предоставляет практические рекомендации для будущих исследований в области построения моделей надзора за процессом.