VisualPRM : Un modèle de récompense de processus efficace pour le raisonnement multimodal

papers.abstract

Nous présentons VisualPRM, un modèle avancé multimodal de récompense de processus (Process Reward Model, PRM) doté de 8 milliards de paramètres, qui améliore les capacités de raisonnement des modèles de langage multimodaux de grande taille (Multimodal Large Language Models, MLLMs) existants, quelle que soit leur échelle ou leur famille, grâce à des stratégies d'évaluation Best-of-N (BoN). Plus précisément, notre modèle améliore les performances de raisonnement de trois types de MLLMs et de quatre échelles de modèles différentes. Même lorsqu'il est appliqué à l'InternVL2.5-78B, un modèle très performant, il permet une amélioration de 5,9 points sur sept benchmarks de raisonnement multimodal. Les résultats expérimentaux montrent que notre modèle présente des performances supérieures à celles des modèles de récompense basés sur les résultats (Outcome Reward Models) et à la méthode de cohérence interne (Self-Consistency) lors de l'évaluation BoN. Pour faciliter l'entraînement des PRMs multimodaux, nous avons construit un jeu de données de supervision de processus multimodal, VisualPRM400K, en utilisant un pipeline de données automatisé. Pour l'évaluation des PRMs multimodaux, nous proposons VisualProcessBench, un benchmark doté d'annotations humaines étape par étape sur la justesse, afin de mesurer la capacité des PRMs à détecter les erreurs dans les tâches de raisonnement multimodal. Nous espérons que notre travail inspirera davantage de recherches futures et contribuera au développement des MLLMs. Notre modèle, les données et le benchmark sont disponibles sur https://internvl.github.io/blog/2025-03-13-VisualPRM/.

English

We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM) with 8B parameters, which improves the reasoning abilities of existing Multimodal Large Language Models (MLLMs) across different model scales and families with Best-of-N (BoN) evaluation strategies. Specifically, our model improves the reasoning performance of three types of MLLMs and four different model scales. Even when applied to the highly capable InternVL2.5-78B, it achieves a 5.9-point improvement across seven multimodal reasoning benchmarks. Experimental results show that our model exhibits superior performance compared to Outcome Reward Models and Self-Consistency during BoN evaluation. To facilitate the training of multimodal PRMs, we construct a multimodal process supervision dataset VisualPRM400K using an automated data pipeline. For the evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with human-annotated step-wise correctness labels, to measure the abilities of PRMs to detect erroneous steps in multimodal reasoning tasks. We hope that our work can inspire more future research and contribute to the development of MLLMs. Our model, data, and benchmark are released in https://internvl.github.io/blog/2025-03-13-VisualPRM/.

VisualPRM : Un modèle de récompense de processus efficace pour le raisonnement multimodal

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

papers.abstract

Support