VisualPRM: 다중 모달 추론을 위한 효과적인 프로세스 보상 모델
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
March 13, 2025
저자: Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
초록
우리는 8B 파라미터를 가진 고급 멀티모달 프로세스 보상 모델(PRM)인 VisualPRM을 소개합니다. 이 모델은 Best-of-N(BoN) 평가 전략을 통해 다양한 모델 규모와 계열에 걸쳐 기존 멀티모달 대형 언어 모델(MLLM)의 추론 능력을 향상시킵니다. 구체적으로, 우리의 모델은 세 가지 유형의 MLLM과 네 가지 다른 모델 규모에서 추론 성능을 개선합니다. 특히, 매우 강력한 성능을 가진 InternVL2.5-78B에 적용했을 때, 7개의 멀티모달 추론 벤치마크에서 5.9점의 향상을 달성했습니다. 실험 결과는 우리의 모델이 BoN 평가 중 Outcome Reward Models 및 Self-Consistency와 비교하여 우수한 성능을 보인다는 것을 나타냅니다. 멀티모달 PRM의 학습을 용이하게 하기 위해, 우리는 자동화된 데이터 파이프라인을 사용하여 멀티모달 프로세스 감독 데이터셋 VisualPRM400K를 구축했습니다. 멀티모달 PRM의 평가를 위해, 우리는 인간이 주석을 단 단계별 정확성 레이블을 포함한 벤치마크인 VisualProcessBench를 제안하여, 멀티모달 추론 작업에서 잘못된 단계를 감지하는 PRM의 능력을 측정합니다. 우리의 작업이 더 많은 미래 연구를 영감으로 삼고 MLLM의 발전에 기여하기를 바랍니다. 우리의 모델, 데이터 및 벤치마크는 https://internvl.github.io/blog/2025-03-13-VisualPRM/에서 공개되었습니다.
English
We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM)
with 8B parameters, which improves the reasoning abilities of existing
Multimodal Large Language Models (MLLMs) across different model scales and
families with Best-of-N (BoN) evaluation strategies. Specifically, our model
improves the reasoning performance of three types of MLLMs and four different
model scales. Even when applied to the highly capable InternVL2.5-78B, it
achieves a 5.9-point improvement across seven multimodal reasoning benchmarks.
Experimental results show that our model exhibits superior performance compared
to Outcome Reward Models and Self-Consistency during BoN evaluation. To
facilitate the training of multimodal PRMs, we construct a multimodal process
supervision dataset VisualPRM400K using an automated data pipeline. For the
evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with
human-annotated step-wise correctness labels, to measure the abilities of PRMs
to detect erroneous steps in multimodal reasoning tasks. We hope that our work
can inspire more future research and contribute to the development of MLLMs.
Our model, data, and benchmark are released in
https://internvl.github.io/blog/2025-03-13-VisualPRM/.Summary
AI-Generated Summary