ChatPaper.aiChatPaper

マルチモーダルプロセス報酬モデルにおける学習データ効率性

Training Data Efficiency in Multimodal Process Reward Models

February 4, 2026
著者: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang
cs.AI

要旨

マルチモーダルプロセス報酬モデル(MPRM)は、MLLMにおける視覚的推論のステップ単位監督において中心的な役割を果たす。MPRMの学習には通常、大規模なモンテカルロ(MC)注釈コーパスが必要であり、多大な学習コストが伴う。本論文はMPRM学習のデータ効率性を検討する。予備実験により、MPRMの学習は訓練データのランダム部分抽出では急速に飽和することが明らかとなり、既存のMC注釈コーパスに大幅な冗長性が存在することが示唆された。この現象を説明するため、我々は理論的枠組みを形式化し、情報量の多い勾配更新が二つの要因(正例/負例ステップのラベル混合率と、正例ステップの平均MCスコアで測定されるラベル信頼性)に依存することを明らかにした。これらの知見に基づき、追加コストを伴わずにロールアウトレベルで既存のMC信号から混合率と信頼性の両方を優先するBalanced-Information Score(BIS)を提案する。VisualProcessBenchにおける2つの基盤モデル(InternVL2.5-8BおよびQwen2.5-VL-7B)での実験では、BISで選択された部分データセットが、少量のデータ割合で完全データ性能を達成し、それを上回る結果を一貫して示した。特に、BIS部分セットは訓練データのわずか10%を使用して完全データ性能に到達し、ランダム部分抽出より相対4.1%改善した。
English
Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.
PDF701February 6, 2026