PRMBench: Ein feinkörniger und anspruchsvoller Benchmark für prozessbasierte Belohnungsmodelle
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models
January 6, 2025
Autoren: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI
Zusammenfassung
Prozessbasierte Belohnungsmodelle (PRMs) sind entscheidend für komplexe Schlussfolgerungen und Entscheidungsfindungsaufgaben, bei denen jeder Zwischenschritt eine wichtige Rolle im Schlussfolgerungsprozess spielt. Da Sprachmodelle während des Schlussfolgerungsprozesses anfällig für verschiedene Arten von Fehlern sind, müssen PRMs über differenzierte Fähigkeiten zur Erkennung verschiedener impliziter Fehlerarten in realen Szenarien verfügen. Aktuelle Benchmarks konzentrieren sich jedoch hauptsächlich auf die Korrektheit der Schritte und versäumen es, die Leistung der PRMs systematisch zu bewerten. Um diese Lücke zu schließen, stellen wir PRMBench vor, einen prozessbasierten Benchmark, der speziell entwickelt wurde, um die feinkörnigen Fehlererkennungsfähigkeiten von PRMs zu bewerten. PRMBench umfasst 6.216 sorgfältig entworfene Probleme und 83.456 Schritt-Etiketten und bewertet Modelle in mehreren Dimensionen, einschließlich Einfachheit, Stichhaltigkeit und Empfindlichkeit. In unseren Experimenten mit 15 Modellen, die sowohl Open-Source-PRMs als auch geschlossene große Sprachmodelle umfassen, die als Kritikermodelle fungieren, decken wir signifikante Schwächen in aktuellen PRMs auf. Diese Ergebnisse verdeutlichen die Herausforderungen, die mit der Bewertung auf Prozessebene verbunden sind, und heben wichtige Richtungen für zukünftige Forschung hervor. Wir hoffen, dass PRMBench eine robuste Bench für die Weiterentwicklung der Forschung zur Bewertung und Entwicklung von PRMs sein kann.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and
decision-making tasks, where each intermediate step plays an important role in
the reasoning process. Since language models are prone to various types of
errors during the reasoning process, PRMs are required to possess nuanced
capabilities for detecting various implicit error types in real-world
scenarios. However, current benchmarks primarily focus on step correctness,
failing to evaluate PRMs' performance systematically. To address this gap, we
introduce PRMBench, a process-level benchmark specifically designed to assess
the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216
carefully designed problems and 83,456 step-level labels, evaluating models
across multiple dimensions, including simplicity, soundness, and sensitivity.
In our experiments on 15 models, spanning both open-source PRMs and
closed-source large language models prompted as critic models, we uncover
significant weaknesses in current PRMs. These findings underscore the
challenges inherent in process-level evaluation and highlight key directions
for future research. We hope PRMBench can be a robust bench for advancing
research on PRM evaluation and development.Summary
AI-Generated Summary