PRMBench: Un banco de pruebas detallado y desafiante para modelos de recompensa a nivel de proceso
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models
January 6, 2025
Autores: Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng
cs.AI
Resumen
Los Modelos de Recompensa a Nivel de Proceso (PRMs, por sus siglas en inglés) son cruciales para tareas de razonamiento y toma de decisiones complejas, donde cada paso intermedio juega un papel importante en el proceso de razonamiento. Dado que los modelos de lenguaje son propensos a diversos tipos de errores durante el proceso de razonamiento, se requiere que los PRMs posean capacidades matizadas para detectar varios tipos de errores implícitos en escenarios del mundo real. Sin embargo, los benchmarks actuales se centran principalmente en la corrección de pasos, sin evaluar sistemáticamente el rendimiento de los PRMs. Para abordar esta brecha, presentamos PRMBench, un benchmark a nivel de proceso diseñado específicamente para evaluar las capacidades de detección de errores detallados de los PRMs. PRMBench consta de 6,216 problemas cuidadosamente diseñados y 83,456 etiquetas a nivel de paso, evaluando modelos en múltiples dimensiones, incluyendo simplicidad, solidez y sensibilidad. En nuestros experimentos con 15 modelos, que abarcan tanto PRMs de código abierto como grandes modelos de lenguaje de código cerrado presentados como modelos críticos, descubrimos debilidades significativas en los PRMs actuales. Estos hallazgos subrayan los desafíos inherentes en la evaluación a nivel de proceso y resaltan direcciones clave para futuras investigaciones. Esperamos que PRMBench pueda ser un banco de pruebas sólido para avanzar en la investigación sobre la evaluación y desarrollo de PRMs.
English
Process-level Reward Models (PRMs) are crucial for complex reasoning and
decision-making tasks, where each intermediate step plays an important role in
the reasoning process. Since language models are prone to various types of
errors during the reasoning process, PRMs are required to possess nuanced
capabilities for detecting various implicit error types in real-world
scenarios. However, current benchmarks primarily focus on step correctness,
failing to evaluate PRMs' performance systematically. To address this gap, we
introduce PRMBench, a process-level benchmark specifically designed to assess
the fine-grained error detection capabilities of PRMs. PRMBench comprises 6,216
carefully designed problems and 83,456 step-level labels, evaluating models
across multiple dimensions, including simplicity, soundness, and sensitivity.
In our experiments on 15 models, spanning both open-source PRMs and
closed-source large language models prompted as critic models, we uncover
significant weaknesses in current PRMs. These findings underscore the
challenges inherent in process-level evaluation and highlight key directions
for future research. We hope PRMBench can be a robust bench for advancing
research on PRM evaluation and development.Summary
AI-Generated Summary