VisualPRM: マルチモーダル推論のための効果的なプロセス報酬モデル
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
March 13, 2025
著者: Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
要旨
私たちは、8Bパラメータを有する高度なマルチモーダルProcess Reward Model(PRM)であるVisualPRMを紹介します。このモデルは、Best-of-N(BoN)評価戦略を用いて、既存のマルチモーダル大規模言語モデル(MLLM)の推論能力を、異なるモデルスケールやファミリーにわたって向上させます。具体的には、私たちのモデルは3種類のMLLMと4つの異なるモデルスケールにおいて、推論性能を向上させます。高度な性能を持つInternVL2.5-78Bに適用した場合でも、7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を達成します。実験結果は、BoN評価において、私たちのモデルがOutcome Reward ModelやSelf-Consistencyよりも優れた性能を示すことを示しています。マルチモーダルPRMのトレーニングを容易にするために、自動化されたデータパイプラインを使用してマルチモーダルプロセス監視データセットVisualPRM400Kを構築しました。マルチモーダルPRMの評価のために、人間が注釈を付けたステップごとの正解ラベルを持つベンチマークVisualProcessBenchを提案し、マルチモーダル推論タスクにおける誤ったステップを検出するPRMの能力を測定します。私たちの研究が、将来のさらなる研究を刺激し、MLLMの開発に貢献することを願っています。私たちのモデル、データ、およびベンチマークはhttps://internvl.github.io/blog/2025-03-13-VisualPRM/で公開されています。
English
We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM)
with 8B parameters, which improves the reasoning abilities of existing
Multimodal Large Language Models (MLLMs) across different model scales and
families with Best-of-N (BoN) evaluation strategies. Specifically, our model
improves the reasoning performance of three types of MLLMs and four different
model scales. Even when applied to the highly capable InternVL2.5-78B, it
achieves a 5.9-point improvement across seven multimodal reasoning benchmarks.
Experimental results show that our model exhibits superior performance compared
to Outcome Reward Models and Self-Consistency during BoN evaluation. To
facilitate the training of multimodal PRMs, we construct a multimodal process
supervision dataset VisualPRM400K using an automated data pipeline. For the
evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with
human-annotated step-wise correctness labels, to measure the abilities of PRMs
to detect erroneous steps in multimodal reasoning tasks. We hope that our work
can inspire more future research and contribute to the development of MLLMs.
Our model, data, and benchmark are released in
https://internvl.github.io/blog/2025-03-13-VisualPRM/.Summary
AI-Generated Summary