MPBench: Un punto de referencia integral para el razonamiento multimodal en la identificación de errores de proceso
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification
March 16, 2025
Autores: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang
cs.AI
Resumen
El razonamiento es una capacidad esencial para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a la hora de abordar tareas complejas, donde la identificación de errores en el proceso es vital para mejorar esta habilidad. Recientemente, se propusieron modelos de recompensa a nivel de proceso (PRMs, por sus siglas en inglés) para proporcionar recompensas paso a paso que facilitan el aprendizaje por refuerzo y la producción de datos durante el entrenamiento, y guían a los LLMs hacia pasos correctos durante la inferencia, mejorando así la precisión del razonamiento. Sin embargo, los benchmarks existentes para PRMs están basados en texto y se centran en la detección de errores, descuidando otros escenarios como la búsqueda de razonamiento. Para abordar esta brecha, presentamos MPBench, un benchmark multimodal y multitarea diseñado para evaluar sistemáticamente la efectividad de los PRMs en diversos escenarios. MPBench emplea tres paradigmas de evaluación, cada uno dirigido a un rol específico de los PRMs en el proceso de razonamiento: (1) Corrección de Pasos, que evalúa la corrección de cada paso intermedio del razonamiento; (2) Agregación de Respuestas, que combina múltiples soluciones y selecciona la mejor; y (3) Búsqueda del Proceso de Razonamiento, que guía la búsqueda de los pasos óptimos durante la inferencia. A través de estos paradigmas, MPBench realiza evaluaciones exhaustivas y proporciona insights para el desarrollo de PRMs multimodales.
English
Reasoning is an essential capacity for large language models (LLMs) to
address complex tasks, where the identification of process errors is vital for
improving this ability. Recently, process-level reward models (PRMs) were
proposed to provide step-wise rewards that facilitate reinforcement learning
and data production during training and guide LLMs toward correct steps during
inference, thereby improving reasoning accuracy. However, existing benchmarks
of PRMs are text-based and focus on error detection, neglecting other scenarios
like reasoning search. To address this gap, we introduce MPBench, a
comprehensive, multi-task, multimodal benchmark designed to systematically
assess the effectiveness of PRMs in diverse scenarios. MPBench employs three
evaluation paradigms, each targeting a specific role of PRMs in the reasoning
process: (1) Step Correctness, which assesses the correctness of each
intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple
solutions and selects the best one; and (3) Reasoning Process Search, which
guides the search for optimal reasoning steps during inference. Through these
paradigms, MPBench makes comprehensive evaluations and provides insights into
the development of multimodal PRMs.Summary
AI-Generated Summary