ChatPaper.aiChatPaper

PRMBench : un banc d'essai fin et exigeant pour les modèles de récompense au niveau du processus

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

January 6, 2025
Auteurs: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI

Résumé

Les Modèles de Récompense au Niveau du Processus (PRM) sont cruciaux pour les tâches de raisonnement et de prise de décision complexes, où chaque étape intermédiaire joue un rôle important dans le processus de raisonnement. Étant donné que les modèles linguistiques sont sujets à divers types d'erreurs pendant le processus de raisonnement, les PRM doivent posséder des capacités nuancées pour détecter divers types d'erreurs implicites dans des scénarios du monde réel. Cependant, les référentiels actuels se concentrent principalement sur la correction des étapes, échouant à évaluer de manière systématique les performances des PRM. Pour combler cette lacune, nous introduisons PRMBench, un référentiel au niveau du processus spécifiquement conçu pour évaluer les capacités de détection d'erreurs fines des PRM. PRMBench comprend 6 216 problèmes soigneusement conçus et 83 456 étiquettes au niveau des étapes, évaluant les modèles selon plusieurs dimensions, y compris la simplicité, la solidité et la sensibilité. Dans nos expériences sur 15 modèles, couvrant à la fois des PRM open-source et des grands modèles linguistiques propriétaires sollicités en tant que modèles critiques, nous mettons en évidence des faiblesses significatives dans les PRM actuels. Ces résultats soulignent les défis inhérents à l'évaluation au niveau du processus et mettent en lumière des orientations clés pour la recherche future. Nous espérons que PRMBench pourra être un banc d'essai robuste pour faire progresser la recherche sur l'évaluation et le développement des PRM.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and decision-making tasks, where each intermediate step plays an important role in the reasoning process. Since language models are prone to various types of errors during the reasoning process, PRMs are required to possess nuanced capabilities for detecting various implicit error types in real-world scenarios. However, current benchmarks primarily focus on step correctness, failing to evaluate PRMs' performance systematically. To address this gap, we introduce PRMBench, a process-level benchmark specifically designed to assess the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216 carefully designed problems and 83,456 step-level labels, evaluating models across multiple dimensions, including simplicity, soundness, and sensitivity. In our experiments on 15 models, spanning both open-source PRMs and closed-source large language models prompted as critic models, we uncover significant weaknesses in current PRMs. These findings underscore the challenges inherent in process-level evaluation and highlight key directions for future research. We hope PRMBench can be a robust bench for advancing research on PRM evaluation and development.

Summary

AI-Generated Summary

PDF142January 8, 2025