MM-PRM: スケーラブルなステップレベル監視によるマルチモーダル数学推論の強化
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
May 19, 2025
著者: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は視覚と言語の理解において目覚ましい進歩を遂げているものの、複雑な多段階推論においては依然として課題を抱えており、論理的に一貫しないまたは部分的に正しい解を生成することが多い。この主な制約は、中間推論ステップに対する細かい監督の欠如にある。この問題に対処するため、我々は完全自動化かつスケーラブルなフレームワーク内で訓練されたプロセス報酬モデル(MM-PRM)を提案する。まず、多様な数学的推論データで訓練された強力なマルチモーダルモデルであるMM-Policyを構築する。次に、検証可能な解答付きの10,000件のマルチモーダル数学問題から成る精選データセットMM-K12を作成し、これをシードデータとして活用する。モンテカルロ木探索(MCTS)ベースのパイプラインを利用して、人間のラベリングなしで70万件以上のステップレベルのアノテーションを生成する。得られたPRMは、Best-of-N推論設定において候補となる推論パスをスコア付けするために使用され、ドメイン内(MM-K12テストセット)およびドメイン外(OlympiadBench、MathVistaなど)のベンチマークにおいて大幅な改善を達成する。さらなる分析により、ソフトラベル、小さな学習率、およびパスの多様性がPRMの性能を最適化する上で有効であることが確認された。MM-PRMは、プロセス監督がマルチモーダル推論システムの論理的堅牢性を強化するための強力なツールであることを示している。我々はすべてのコードとデータをhttps://github.com/ModalMinds/MM-PRMで公開している。
English
While Multimodal Large Language Models (MLLMs) have achieved impressive
progress in vision-language understanding, they still struggle with complex
multi-step reasoning, often producing logically inconsistent or partially
correct solutions. A key limitation lies in the lack of fine-grained
supervision over intermediate reasoning steps. To address this, we propose
MM-PRM, a process reward model trained within a fully automated, scalable
framework. We first build MM-Policy, a strong multimodal model trained on
diverse mathematical reasoning data. Then, we construct MM-K12, a curated
dataset of 10,000 multimodal math problems with verifiable answers, which
serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based
pipeline, we generate over 700k step-level annotations without human labeling.
The resulting PRM is used to score candidate reasoning paths in the Best-of-N
inference setup and achieves significant improvements across both in-domain
(MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.)
benchmarks. Further analysis confirms the effectiveness of soft labels, smaller
learning rates, and path diversity in optimizing PRM performance. MM-PRM
demonstrates that process supervision is a powerful tool for enhancing the
logical robustness of multimodal reasoning systems. We release all our codes
and data at https://github.com/ModalMinds/MM-PRM.Summary
AI-Generated Summary