VisualPRM : Un modèle de récompense de processus efficace pour le raisonnement multimodal
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
March 13, 2025
Auteurs: Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
Résumé
Nous présentons VisualPRM, un modèle avancé multimodal de récompense de processus (Process Reward Model, PRM) doté de 8 milliards de paramètres, qui améliore les capacités de raisonnement des modèles de langage multimodaux de grande taille (Multimodal Large Language Models, MLLMs) existants, quelle que soit leur échelle ou leur famille, grâce à des stratégies d'évaluation Best-of-N (BoN). Plus précisément, notre modèle améliore les performances de raisonnement de trois types de MLLMs et de quatre échelles de modèles différentes. Même lorsqu'il est appliqué à l'InternVL2.5-78B, un modèle très performant, il permet une amélioration de 5,9 points sur sept benchmarks de raisonnement multimodal. Les résultats expérimentaux montrent que notre modèle présente des performances supérieures à celles des modèles de récompense basés sur les résultats (Outcome Reward Models) et à la méthode de cohérence interne (Self-Consistency) lors de l'évaluation BoN. Pour faciliter l'entraînement des PRMs multimodaux, nous avons construit un jeu de données de supervision de processus multimodal, VisualPRM400K, en utilisant un pipeline de données automatisé. Pour l'évaluation des PRMs multimodaux, nous proposons VisualProcessBench, un benchmark doté d'annotations humaines étape par étape sur la justesse, afin de mesurer la capacité des PRMs à détecter les erreurs dans les tâches de raisonnement multimodal. Nous espérons que notre travail inspirera davantage de recherches futures et contribuera au développement des MLLMs. Notre modèle, les données et le benchmark sont disponibles sur https://internvl.github.io/blog/2025-03-13-VisualPRM/.
English
We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM)
with 8B parameters, which improves the reasoning abilities of existing
Multimodal Large Language Models (MLLMs) across different model scales and
families with Best-of-N (BoN) evaluation strategies. Specifically, our model
improves the reasoning performance of three types of MLLMs and four different
model scales. Even when applied to the highly capable InternVL2.5-78B, it
achieves a 5.9-point improvement across seven multimodal reasoning benchmarks.
Experimental results show that our model exhibits superior performance compared
to Outcome Reward Models and Self-Consistency during BoN evaluation. To
facilitate the training of multimodal PRMs, we construct a multimodal process
supervision dataset VisualPRM400K using an automated data pipeline. For the
evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with
human-annotated step-wise correctness labels, to measure the abilities of PRMs
to detect erroneous steps in multimodal reasoning tasks. We hope that our work
can inspire more future research and contribute to the development of MLLMs.
Our model, data, and benchmark are released in
https://internvl.github.io/blog/2025-03-13-VisualPRM/.Summary
AI-Generated Summary