PRMBench: Точный и сложный бенчмарк для моделей вознаграждения на уровне процесса
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models
January 6, 2025
Авторы: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI
Аннотация
Модели вознаграждения на уровне процесса (PRM) являются ключевыми для выполнения сложных задач рассуждения и принятия решений, где каждый промежуточный шаг играет важную роль в процессе рассуждения. Поскольку языковые модели подвержены различным типам ошибок во время процесса рассуждения, PRM должны обладать тонкими способностями для обнаружения различных неявных типов ошибок в реальных сценариях. Однако текущие бенчмарки в основном сосредотачиваются на правильности шагов, не оценивая систематически производительность PRM. Для заполнения этого пробела мы представляем PRMBench, бенчмарк на уровне процесса, специально разработанный для оценки способностей обнаружения тонких ошибок PRM. PRMBench включает в себя 6 216 тщательно разработанных задач и 83 456 меток на уровне шага, оценивающих модели по нескольким измерениям, включая простоту, обоснованность и чувствительность. В наших экспериментах на 15 моделях, охватывающих как открытые PRM, так и закрытые большие языковые модели, представленные в качестве моделей-критиков, мы выявляем значительные слабые места в текущих PRM. Эти результаты подчеркивают сложности, присущие оценке на уровне процесса, и выделяют ключевые направления для будущих исследований. Мы надеемся, что PRMBench может стать надежным инструментом для продвижения исследований в области оценки и развития PRM.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and
decision-making tasks, where each intermediate step plays an important role in
the reasoning process. Since language models are prone to various types of
errors during the reasoning process, PRMs are required to possess nuanced
capabilities for detecting various implicit error types in real-world
scenarios. However, current benchmarks primarily focus on step correctness,
failing to evaluate PRMs' performance systematically. To address this gap, we
introduce PRMBench, a process-level benchmark specifically designed to assess
the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216
carefully designed problems and 83,456 step-level labels, evaluating models
across multiple dimensions, including simplicity, soundness, and sensitivity.
In our experiments on 15 models, spanning both open-source PRMs and
closed-source large language models prompted as critic models, we uncover
significant weaknesses in current PRMs. These findings underscore the
challenges inherent in process-level evaluation and highlight key directions
for future research. We hope PRMBench can be a robust bench for advancing
research on PRM evaluation and development.Summary
AI-Generated Summary