VisualPRM: Un Modello Efficace di Ricompensa del Processo per il Ragionamento Multimodale

Abstract

Introduciamo VisualPRM, un avanzato modello Process Reward Model (PRM) multimodale con 8 miliardi di parametri, che migliora le capacità di ragionamento degli esistenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) attraverso diverse scale e famiglie di modelli, utilizzando strategie di valutazione Best-of-N (BoN). Nello specifico, il nostro modello migliora le prestazioni di ragionamento di tre tipologie di MLLMs e quattro diverse scale di modelli. Anche quando applicato al già altamente performante InternVL2.5-78B, si osserva un miglioramento di 5,9 punti su sette benchmark di ragionamento multimodale. I risultati sperimentali dimostrano che il nostro modello supera i modelli Outcome Reward Models e Self-Consistency durante la valutazione BoN. Per facilitare l'addestramento dei PRM multimodali, abbiamo costruito un dataset di supervisione del processo multimodale, VisualPRM400K, utilizzando una pipeline di dati automatizzata. Per la valutazione dei PRM multimodali, proponiamo VisualProcessBench, un benchmark con etichette di correttezza passo-passo annotate manualmente, per misurare la capacità dei PRM di rilevare errori nei passaggi dei compiti di ragionamento multimodale. Speriamo che il nostro lavoro possa ispirare ulteriori ricerche future e contribuire allo sviluppo degli MLLMs. Il nostro modello, i dati e il benchmark sono disponibili su https://internvl.github.io/blog/2025-03-13-VisualPRM/.

English

We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM) with 8B parameters, which improves the reasoning abilities of existing Multimodal Large Language Models (MLLMs) across different model scales and families with Best-of-N (BoN) evaluation strategies. Specifically, our model improves the reasoning performance of three types of MLLMs and four different model scales. Even when applied to the highly capable InternVL2.5-78B, it achieves a 5.9-point improvement across seven multimodal reasoning benchmarks. Experimental results show that our model exhibits superior performance compared to Outcome Reward Models and Self-Consistency during BoN evaluation. To facilitate the training of multimodal PRMs, we construct a multimodal process supervision dataset VisualPRM400K using an automated data pipeline. For the evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with human-annotated step-wise correctness labels, to measure the abilities of PRMs to detect erroneous steps in multimodal reasoning tasks. We hope that our work can inspire more future research and contribute to the development of MLLMs. Our model, data, and benchmark are released in https://internvl.github.io/blog/2025-03-13-VisualPRM/.

VisualPRM: Un Modello Efficace di Ricompensa del Processo per il Ragionamento Multimodale

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

Abstract

Support