VisualPRM: Een Effectief Procesbeloningsmodel voor Multimodaal Redeneren
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
March 13, 2025
Auteurs: Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
Samenvatting
We introduceren VisualPRM, een geavanceerd multimodaal Process Reward Model (PRM) met 8B parameters, dat de redeneervaardigheden van bestaande Multimodale Large Language Models (MLLMs) verbetert over verschillende modelschalen en -families met Best-of-N (BoN) evaluatiestrategieën. Specifiek verbetert ons model de redeneerprestaties van drie typen MLLMs en vier verschillende modelschalen. Zelfs wanneer toegepast op de zeer capabele InternVL2.5-78B, behaalt het een verbetering van 5,9 punten over zeven multimodale redeneerbenchmarks. Experimentele resultaten tonen aan dat ons model superieure prestaties vertoont in vergelijking met Outcome Reward Models en Self-Consistency tijdens BoN-evaluatie. Om de training van multimodale PRMs te vergemakkelijken, hebben we een multimodaal procesbegeleidingsdataset VisualPRM400K geconstrueerd met behulp van een geautomatiseerde datapijplijn. Voor de evaluatie van multimodale PRMs stellen we VisualProcessBench voor, een benchmark met door mensen geannoteerde stap-voor-stap correctheidslabels, om de vaardigheden van PRMs te meten om foutieve stappen in multimodale redeneertaken te detecteren. We hopen dat ons werk meer toekomstig onderzoek kan inspireren en bijdraagt aan de ontwikkeling van MLLMs. Ons model, data en benchmark zijn vrijgegeven op https://internvl.github.io/blog/2025-03-13-VisualPRM/.
English
We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM)
with 8B parameters, which improves the reasoning abilities of existing
Multimodal Large Language Models (MLLMs) across different model scales and
families with Best-of-N (BoN) evaluation strategies. Specifically, our model
improves the reasoning performance of three types of MLLMs and four different
model scales. Even when applied to the highly capable InternVL2.5-78B, it
achieves a 5.9-point improvement across seven multimodal reasoning benchmarks.
Experimental results show that our model exhibits superior performance compared
to Outcome Reward Models and Self-Consistency during BoN evaluation. To
facilitate the training of multimodal PRMs, we construct a multimodal process
supervision dataset VisualPRM400K using an automated data pipeline. For the
evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with
human-annotated step-wise correctness labels, to measure the abilities of PRMs
to detect erroneous steps in multimodal reasoning tasks. We hope that our work
can inspire more future research and contribute to the development of MLLMs.
Our model, data, and benchmark are released in
https://internvl.github.io/blog/2025-03-13-VisualPRM/.Summary
AI-Generated Summary