ChatPaper.aiChatPaper

VisualPRM: Un Modelo Efectivo de Recompensa de Procesos para el Razonamiento Multimodal

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

March 13, 2025
Autores: Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI

Resumen

Presentamos VisualPRM, un avanzado Modelo de Recompensa de Procesos (PRM) multimodal con 8B parámetros, que mejora las capacidades de razonamiento de los Modelos de Lenguaje Multimodales (MLLMs) existentes en diferentes escalas y familias de modelos mediante estrategias de evaluación Best-of-N (BoN). Específicamente, nuestro modelo mejora el rendimiento de razonamiento de tres tipos de MLLMs y cuatro escalas de modelos diferentes. Incluso cuando se aplica al altamente competente InternVL2.5-78B, logra una mejora de 5.9 puntos en siete benchmarks de razonamiento multimodal. Los resultados experimentales muestran que nuestro modelo exhibe un rendimiento superior en comparación con los Modelos de Recompensa de Resultados y la Autoconsistencia durante la evaluación BoN. Para facilitar el entrenamiento de PRMs multimodales, construimos un conjunto de datos de supervisión de procesos multimodales, VisualPRM400K, utilizando una canalización de datos automatizada. Para la evaluación de PRMs multimodales, proponemos VisualProcessBench, un benchmark con etiquetas de corrección paso a paso anotadas por humanos, para medir las capacidades de los PRMs para detectar pasos erróneos en tareas de razonamiento multimodal. Esperamos que nuestro trabajo inspire más investigaciones futuras y contribuya al desarrollo de los MLLMs. Nuestro modelo, datos y benchmark están disponibles en https://internvl.github.io/blog/2025-03-13-VisualPRM/.
English
We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM) with 8B parameters, which improves the reasoning abilities of existing Multimodal Large Language Models (MLLMs) across different model scales and families with Best-of-N (BoN) evaluation strategies. Specifically, our model improves the reasoning performance of three types of MLLMs and four different model scales. Even when applied to the highly capable InternVL2.5-78B, it achieves a 5.9-point improvement across seven multimodal reasoning benchmarks. Experimental results show that our model exhibits superior performance compared to Outcome Reward Models and Self-Consistency during BoN evaluation. To facilitate the training of multimodal PRMs, we construct a multimodal process supervision dataset VisualPRM400K using an automated data pipeline. For the evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with human-annotated step-wise correctness labels, to measure the abilities of PRMs to detect erroneous steps in multimodal reasoning tasks. We hope that our work can inspire more future research and contribute to the development of MLLMs. Our model, data, and benchmark are released in https://internvl.github.io/blog/2025-03-13-VisualPRM/.

Summary

AI-Generated Summary

PDF363March 14, 2025