ChatPaper.aiChatPaper

Уроки разработки моделей вознаграждения процесса в математическом мышлении

The Lessons of Developing Process Reward Models in Mathematical Reasoning

January 13, 2025
Авторы: Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

Аннотация

Модели вознаграждения за процесс (PRM) выступают как многообещающий подход для надзора за процессом в математическом рассуждении крупных языковых моделей (LLM), которые направлены на выявление и уменьшение промежуточных ошибок в процессах рассуждения. Однако разработка эффективных PRM сталкивается с существенными проблемами, особенно в области аннотации данных и методологий оценки. В данной статье, через обширные эксперименты, мы демонстрируем, что широко используемый синтез данных на основе оценки методом Монте-Карло (MC) для PRM обычно дает более низкую производительность и обобщение по сравнению с LLM-как-судья и методами аннотации человека. Оценка методом Монте-Карло полагается на модели завершения для оценки правильности текущего шага, что приводит к неточной верификации шага. Более того, мы выявляем потенциальные предвзятости в традиционных стратегиях оценки Лучшего-из-N (BoN) для PRM: (1) Ненадежные модели политики генерируют ответы с правильными ответами, но с дефектными процессами, что приводит к несоответствию между критериями оценки BoN и целями PRM по верификации процесса. (2) Терпимость PRM к таким ответам приводит к завышенным оценкам BoN. (3) Существующие PRM имеют значительную долю минимальных баллов, сосредоточенных на шагах окончательного ответа, что раскрывает сдвиг от оценки процесса к оценке результата в оптимизированных PRM по BoN. Для решения этих проблем мы разрабатываем механизм консенсусной фильтрации, который эффективно интегрирует оценку методом Монте-Карло с LLM-как-судья и пропагандирует более всестороннюю систему оценки, объединяющую метрики на уровне ответа и на уровне шага. Основываясь на этих механизмах, мы значительно улучшаем как производительность модели, так и эффективность данных в оценке BoN и задаче идентификации ошибок по шагам. Наконец, мы выпускаем новый передовой PRM, который превосходит существующие альтернативы с открытым исходным кодом и предоставляет практические рекомендации для будущих исследований в области построения моделей надзора за процессом.
English
Process Reward Models (PRMs) emerge as a promising approach for process supervision in mathematical reasoning of Large Language Models (LLMs), which aim to identify and mitigate intermediate errors in the reasoning processes. However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies. In this paper, through extensive experiments, we demonstrate that commonly used Monte Carlo (MC) estimation-based data synthesis for PRMs typically yields inferior performance and generalization compared to LLM-as-a-judge and human annotation methods. MC estimation relies on completion models to evaluate current-step correctness, leading to inaccurate step verification. Furthermore, we identify potential biases in conventional Best-of-N (BoN) evaluation strategies for PRMs: (1) The unreliable policy models generate responses with correct answers but flawed processes, leading to a misalignment between the evaluation criteria of BoN and the PRM objectives of process verification. (2) The tolerance of PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a significant proportion of minimum scores concentrated on the final answer steps, revealing the shift from process to outcome-based assessment in BoN Optimized PRMs. To address these challenges, we develop a consensus filtering mechanism that effectively integrates MC estimation with LLM-as-a-judge and advocates a more comprehensive evaluation framework that combines response-level and step-level metrics. Based on the mechanisms, we significantly improve both model performance and data efficiency in the BoN evaluation and the step-wise error identification task. Finally, we release a new state-of-the-art PRM that outperforms existing open-source alternatives and provides practical guidelines for future research in building process supervision models.

Summary

AI-Generated Summary

PDF988January 14, 2025