マルチモーダル推論におけるテストタイムスケーリングのための視覚言語プロセス報酬モデルのトレーニング:主要な洞察と学び
Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
September 27, 2025
著者: Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria
cs.AI
要旨
プロセス報酬モデル(PRMs)は、大規模言語モデルにおける推論の信頼性を向上させるステップレベルの監視を提供する。PRMsはテキストベースの領域で広く研究されているが、視覚言語モデル(VLMs)への拡張は限定的である。既存の視覚言語PRMs(VL-PRMs)は、データ構築にモンテカルロ木探索(MCTS)を利用しており、しばしばノイズの多い監視信号を生成し、タスク間の汎化を制限する可能性がある。本研究では、データセット構築、トレーニング、テスト時のスケーリングに関する多様な戦略を探求することで、VL-PRMsの設計空間を明らかにすることを目指す。まず、MCTSと強力なVLMの判断を組み合わせたハイブリッドデータ合成フレームワークを導入し、より正確なステップレベルのラベルを生成する。次に、推論の視覚的基盤段階でのエラーを明示的に検出するための知覚焦点型監視を提案する。さらに、複数のテスト時スケーリング戦略を体系的に評価し、我々のPRMsがVLMsをより正確な解決策へと導くことができることを示す。5つの多様なマルチモーダルベンチマーク(MMMU、PuzzleVQA、AlgoPuzzleVQA、MathVista、MathVision)をカバーした実験から、以下の重要な知見が得られた:(i) テスト時スケーリング(TTS)中に結果報酬モデル(ORMs)として使用されるVL-PRMsは、VL-PRMが導くプロセスステップ選択を上回る可能性がある、(ii) より小規模なVL-PRMsは、プロセスエラーの検出においてより大規模なモデルに匹敵またはそれを上回ることができる、(iii) VL-PRMsは、より強力なVLMバックボーンにおける潜在的な推論能力を明らかにする、(iv) 知覚レベル監視はテスト時スケーリングにおいて大きな向上をもたらす、(v) 異なるポリシーのTTS性能は、そのようなデータセットでVL-PRMsをトレーニングしていないにもかかわらず、高度な数学推論データセットで向上する。本研究がさらなる研究を促進し、VLMsの進展を支援することを期待する。
English
Process Reward Models (PRMs) provide step-level supervision that improves the
reliability of reasoning in large language models. While PRMs have been
extensively studied in text-based domains, their extension to Vision Language
Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on
Monte Carlo Tree Search (MCTS) for data construction, which can often produce
noisy supervision signals and limit generalization across tasks. In this work,
we aim to elucidate the design space of VL-PRMs by exploring diverse strategies
for dataset construction, training, and test-time scaling. First, we introduce
a hybrid data synthesis framework that combines MCTS with judgments from a
strong VLM, producing more accurate step-level labels. Second, we propose
perception-focused supervision, enabling our PRM to explicitly detect errors at
the visual grounding stage of reasoning. Third, we systematically evaluate
multiple test-time scaling strategies, showing that our PRMs can reliably guide
VLMs toward more accurate solutions. Our experiments covering five diverse
multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and
MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome
Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM
guided process step selection, (ii) smaller VL-PRMs can match or even surpass
larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning
abilities in stronger VLM backbones, (iv) perception-level supervision leads to
significant gains in test-time scaling, and (v) TTS performance of different
policies improve on advanced math reasoning datasets despite not training
VL-PRMs on such datasets. We hope our work will motivate further research and
support the advancement of VLMs.