PRMBench: Een fijnmazige en uitdagende benchmark voor beloningsmodellen op procesniveau
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models
January 6, 2025
Auteurs: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI
Samenvatting
Procesniveau Beloningsmodellen (PRM's) zijn cruciaal voor complexe redeneer- en besluitvormingstaken, waarbij elke tussenstap een belangrijke rol speelt in het redeneerproces. Aangezien taalmodellen gevoelig zijn voor verschillende soorten fouten tijdens het redeneerproces, is het noodzakelijk dat PRM's verfijnde mogelijkheden hebben om verschillende impliciete fouttypen in realistische scenario's te detecteren. Echter, huidige benchmarks richten zich voornamelijk op de correctheid van stappen en evalueren de prestaties van PRM's niet systematisch. Om deze lacune aan te pakken, introduceren we PRMBench, een procesniveau benchmark die specifiek is ontworpen om de fijnmazige foutdetectiemogelijkheden van PRM's te beoordelen. PRMBench bestaat uit 6.216 zorgvuldig ontworpen problemen en 83.456 stapniveau labels, waarbij modellen worden geëvalueerd op meerdere dimensies, waaronder eenvoud, degelijkheid en gevoeligheid. In onze experimenten met 15 modellen, zowel open-source PRM's als gesloten-source grote taalmodellen die als criticusmodellen worden gebruikt, ontdekken we significante zwaktes in huidige PRM's. Deze bevindingen benadrukken de uitdagingen die inherent zijn aan evaluatie op procesniveau en belichten belangrijke richtingen voor toekomstig onderzoek. We hopen dat PRMBench een robuuste benchmark kan zijn voor het bevorderen van onderzoek naar de evaluatie en ontwikkeling van PRM's.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and
decision-making tasks, where each intermediate step plays an important role in
the reasoning process. Since language models are prone to various types of
errors during the reasoning process, PRMs are required to possess nuanced
capabilities for detecting various implicit error types in real-world
scenarios. However, current benchmarks primarily focus on step correctness,
failing to evaluate PRMs' performance systematically. To address this gap, we
introduce PRMBench, a process-level benchmark specifically designed to assess
the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216
carefully designed problems and 83,456 step-level labels, evaluating models
across multiple dimensions, including simplicity, soundness, and sensitivity.
In our experiments on 15 models, spanning both open-source PRMs and
closed-source large language models prompted as critic models, we uncover
significant weaknesses in current PRMs. These findings underscore the
challenges inherent in process-level evaluation and highlight key directions
for future research. We hope PRMBench can be a robust bench for advancing
research on PRM evaluation and development.Summary
AI-Generated Summary