ChatPaper.aiChatPaper

PRMBench: Un banco de pruebas detallado y desafiante para modelos de recompensa a nivel de proceso

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

January 6, 2025
Autores: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI

Resumen

Los Modelos de Recompensa a Nivel de Proceso (PRMs, por sus siglas en inglés) son cruciales para tareas de razonamiento y toma de decisiones complejas, donde cada paso intermedio juega un papel importante en el proceso de razonamiento. Dado que los modelos de lenguaje son propensos a diversos tipos de errores durante el proceso de razonamiento, se requiere que los PRMs posean capacidades matizadas para detectar varios tipos de errores implícitos en escenarios del mundo real. Sin embargo, los benchmarks actuales se centran principalmente en la corrección de pasos, sin evaluar sistemáticamente el rendimiento de los PRMs. Para abordar esta brecha, presentamos PRMBench, un benchmark a nivel de proceso diseñado específicamente para evaluar las capacidades de detección de errores detallados de los PRMs. PRMBench consta de 6,216 problemas cuidadosamente diseñados y 83,456 etiquetas a nivel de paso, evaluando modelos en múltiples dimensiones, incluyendo simplicidad, solidez y sensibilidad. En nuestros experimentos con 15 modelos, que abarcan tanto PRMs de código abierto como grandes modelos de lenguaje de código cerrado presentados como modelos críticos, descubrimos debilidades significativas en los PRMs actuales. Estos hallazgos subrayan los desafíos inherentes en la evaluación a nivel de proceso y resaltan direcciones clave para futuras investigaciones. Esperamos que PRMBench pueda ser un banco de pruebas sólido para avanzar en la investigación sobre la evaluación y desarrollo de PRMs.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and decision-making tasks, where each intermediate step plays an important role in the reasoning process. Since language models are prone to various types of errors during the reasoning process, PRMs are required to possess nuanced capabilities for detecting various implicit error types in real-world scenarios. However, current benchmarks primarily focus on step correctness, failing to evaluate PRMs' performance systematically. To address this gap, we introduce PRMBench, a process-level benchmark specifically designed to assess the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216 carefully designed problems and 83,456 step-level labels, evaluating models across multiple dimensions, including simplicity, soundness, and sensitivity. In our experiments on 15 models, spanning both open-source PRMs and closed-source large language models prompted as critic models, we uncover significant weaknesses in current PRMs. These findings underscore the challenges inherent in process-level evaluation and highlight key directions for future research. We hope PRMBench can be a robust bench for advancing research on PRM evaluation and development.

Summary

AI-Generated Summary

PDF142January 8, 2025