ChatPaper.aiChatPaper

PRMBench: Ein feinkörniger und anspruchsvoller Benchmark für prozessbasierte Belohnungsmodelle

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

January 6, 2025
Autoren: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI

Zusammenfassung

Prozessbasierte Belohnungsmodelle (PRMs) sind entscheidend für komplexe Schlussfolgerungen und Entscheidungsfindungsaufgaben, bei denen jeder Zwischenschritt eine wichtige Rolle im Schlussfolgerungsprozess spielt. Da Sprachmodelle während des Schlussfolgerungsprozesses anfällig für verschiedene Arten von Fehlern sind, müssen PRMs über differenzierte Fähigkeiten zur Erkennung verschiedener impliziter Fehlerarten in realen Szenarien verfügen. Aktuelle Benchmarks konzentrieren sich jedoch hauptsächlich auf die Korrektheit der Schritte und versäumen es, die Leistung der PRMs systematisch zu bewerten. Um diese Lücke zu schließen, stellen wir PRMBench vor, einen prozessbasierten Benchmark, der speziell entwickelt wurde, um die feinkörnigen Fehlererkennungsfähigkeiten von PRMs zu bewerten. PRMBench umfasst 6.216 sorgfältig entworfene Probleme und 83.456 Schritt-Etiketten und bewertet Modelle in mehreren Dimensionen, einschließlich Einfachheit, Stichhaltigkeit und Empfindlichkeit. In unseren Experimenten mit 15 Modellen, die sowohl Open-Source-PRMs als auch geschlossene große Sprachmodelle umfassen, die als Kritikermodelle fungieren, decken wir signifikante Schwächen in aktuellen PRMs auf. Diese Ergebnisse verdeutlichen die Herausforderungen, die mit der Bewertung auf Prozessebene verbunden sind, und heben wichtige Richtungen für zukünftige Forschung hervor. Wir hoffen, dass PRMBench eine robuste Bench für die Weiterentwicklung der Forschung zur Bewertung und Entwicklung von PRMs sein kann.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and decision-making tasks, where each intermediate step plays an important role in the reasoning process. Since language models are prone to various types of errors during the reasoning process, PRMs are required to possess nuanced capabilities for detecting various implicit error types in real-world scenarios. However, current benchmarks primarily focus on step correctness, failing to evaluate PRMs' performance systematically. To address this gap, we introduce PRMBench, a process-level benchmark specifically designed to assess the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216 carefully designed problems and 83,456 step-level labels, evaluating models across multiple dimensions, including simplicity, soundness, and sensitivity. In our experiments on 15 models, spanning both open-source PRMs and closed-source large language models prompted as critic models, we uncover significant weaknesses in current PRMs. These findings underscore the challenges inherent in process-level evaluation and highlight key directions for future research. We hope PRMBench can be a robust bench for advancing research on PRM evaluation and development.

Summary

AI-Generated Summary

PDF142January 8, 2025