VisualPRM: Un Modello Efficace di Ricompensa del Processo per il Ragionamento Multimodale
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
March 13, 2025
Autori: Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
Abstract
Introduciamo VisualPRM, un avanzato modello Process Reward Model (PRM) multimodale con 8 miliardi di parametri, che migliora le capacità di ragionamento degli esistenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) attraverso diverse scale e famiglie di modelli, utilizzando strategie di valutazione Best-of-N (BoN). Nello specifico, il nostro modello migliora le prestazioni di ragionamento di tre tipologie di MLLMs e quattro diverse scale di modelli. Anche quando applicato al già altamente performante InternVL2.5-78B, si osserva un miglioramento di 5,9 punti su sette benchmark di ragionamento multimodale. I risultati sperimentali dimostrano che il nostro modello supera i modelli Outcome Reward Models e Self-Consistency durante la valutazione BoN. Per facilitare l'addestramento dei PRM multimodali, abbiamo costruito un dataset di supervisione del processo multimodale, VisualPRM400K, utilizzando una pipeline di dati automatizzata. Per la valutazione dei PRM multimodali, proponiamo VisualProcessBench, un benchmark con etichette di correttezza passo-passo annotate manualmente, per misurare la capacità dei PRM di rilevare errori nei passaggi dei compiti di ragionamento multimodale. Speriamo che il nostro lavoro possa ispirare ulteriori ricerche future e contribuire allo sviluppo degli MLLMs. Il nostro modello, i dati e il benchmark sono disponibili su https://internvl.github.io/blog/2025-03-13-VisualPRM/.
English
We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM)
with 8B parameters, which improves the reasoning abilities of existing
Multimodal Large Language Models (MLLMs) across different model scales and
families with Best-of-N (BoN) evaluation strategies. Specifically, our model
improves the reasoning performance of three types of MLLMs and four different
model scales. Even when applied to the highly capable InternVL2.5-78B, it
achieves a 5.9-point improvement across seven multimodal reasoning benchmarks.
Experimental results show that our model exhibits superior performance compared
to Outcome Reward Models and Self-Consistency during BoN evaluation. To
facilitate the training of multimodal PRMs, we construct a multimodal process
supervision dataset VisualPRM400K using an automated data pipeline. For the
evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with
human-annotated step-wise correctness labels, to measure the abilities of PRMs
to detect erroneous steps in multimodal reasoning tasks. We hope that our work
can inspire more future research and contribute to the development of MLLMs.
Our model, data, and benchmark are released in
https://internvl.github.io/blog/2025-03-13-VisualPRM/.