マルチモーダル推論におけるテストタイムスケーリングのための視覚言語プロセス報酬モデルのトレーニング：主要な洞察と学び

要旨

プロセス報酬モデル（PRMs）は、大規模言語モデルにおける推論の信頼性を向上させるステップレベルの監視を提供する。PRMsはテキストベースの領域で広く研究されているが、視覚言語モデル（VLMs）への拡張は限定的である。既存の視覚言語PRMs（VL-PRMs）は、データ構築にモンテカルロ木探索（MCTS）を利用しており、しばしばノイズの多い監視信号を生成し、タスク間の汎化を制限する可能性がある。本研究では、データセット構築、トレーニング、テスト時のスケーリングに関する多様な戦略を探求することで、VL-PRMsの設計空間を明らかにすることを目指す。まず、MCTSと強力なVLMの判断を組み合わせたハイブリッドデータ合成フレームワークを導入し、より正確なステップレベルのラベルを生成する。次に、推論の視覚的基盤段階でのエラーを明示的に検出するための知覚焦点型監視を提案する。さらに、複数のテスト時スケーリング戦略を体系的に評価し、我々のPRMsがVLMsをより正確な解決策へと導くことができることを示す。5つの多様なマルチモーダルベンチマーク（MMMU、PuzzleVQA、AlgoPuzzleVQA、MathVista、MathVision）をカバーした実験から、以下の重要な知見が得られた：(i) テスト時スケーリング（TTS）中に結果報酬モデル（ORMs）として使用されるVL-PRMsは、VL-PRMが導くプロセスステップ選択を上回る可能性がある、(ii) より小規模なVL-PRMsは、プロセスエラーの検出においてより大規模なモデルに匹敵またはそれを上回ることができる、(iii) VL-PRMsは、より強力なVLMバックボーンにおける潜在的な推論能力を明らかにする、(iv) 知覚レベル監視はテスト時スケーリングにおいて大きな向上をもたらす、(v) 異なるポリシーのTTS性能は、そのようなデータセットでVL-PRMsをトレーニングしていないにもかかわらず、高度な数学推論データセットで向上する。本研究がさらなる研究を促進し、VLMsの進展を支援することを期待する。

English

Process Reward Models (PRMs) provide step-level supervision that improves the reliability of reasoning in large language models. While PRMs have been extensively studied in text-based domains, their extension to Vision Language Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on Monte Carlo Tree Search (MCTS) for data construction, which can often produce noisy supervision signals and limit generalization across tasks. In this work, we aim to elucidate the design space of VL-PRMs by exploring diverse strategies for dataset construction, training, and test-time scaling. First, we introduce a hybrid data synthesis framework that combines MCTS with judgments from a strong VLM, producing more accurate step-level labels. Second, we propose perception-focused supervision, enabling our PRM to explicitly detect errors at the visual grounding stage of reasoning. Third, we systematically evaluate multiple test-time scaling strategies, showing that our PRMs can reliably guide VLMs toward more accurate solutions. Our experiments covering five diverse multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM guided process step selection, (ii) smaller VL-PRMs can match or even surpass larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning abilities in stronger VLM backbones, (iv) perception-level supervision leads to significant gains in test-time scaling, and (v) TTS performance of different policies improve on advanced math reasoning datasets despite not training VL-PRMs on such datasets. We hope our work will motivate further research and support the advancement of VLMs.

マルチモーダル推論におけるテストタイムスケーリングのための視覚言語プロセス報酬モデルのトレーニング：主要な洞察と学び

Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

要旨

Support