Effizienz der Trainingsdaten in multimodalen Prozessbelohnungsmodellen
Training Data Efficiency in Multimodal Process Reward Models
February 4, 2026
papers.authors: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang
cs.AI
papers.abstract
Multimodale Prozessbelohnungsmodelle (MPRMs) sind zentral für die schrittweise Überwachung des visuellen Denkens in MLLMs. Das Training von MPRMs erfordert typischerweise groß angelegte, Monte-Carlo-annotierte Korpora, was erhebliche Trainingskosten verursacht. Diese Arbeit untersucht die Dateneffizienz beim MPRM-Training. Unsere vorläufigen Experimente zeigen, dass das MPRM-Training bei zufälliger Unterabtastung der Trainingsdaten schnell sättigt, was auf erhebliche Redundanz in bestehenden MC-annotierten Korpora hindeutet. Um dies zu erklären, formalisieren wir einen theoretischen Rahmen und zeigen, dass informative Gradientenupdates von zwei Faktoren abhängen: der Etikettenmischung aus positiven/negativen Schritten und der Etikettenzuverlässigkeit (durchschnittliche MC-Scores positiver Schritte). Aufbauend auf diesen Erkenntnissen schlagen wir den Balanced-Information Score (BIS) vor, der sowohl die Mischung als auch die Zuverlässigkeit auf Basis vorhandener MC-Signale auf Rollout-Ebene priorisiert, ohne zusätzliche Kosten zu verursachen. Über zwei Backbones (InternVL2.5-8B und Qwen2.5-VL-7B) auf VisualProcessBench hinweg erreichen mit BIS ausgewählte Teilmengen konsistent die Leistung der Vollständigen Daten und übertreffen sie sogar bei kleinen Anteilen. Bemerkenswerterweise erreicht die BIS-Teilmenge die Vollständige-Daten-Leistung mit nur 10 % der Trainingsdaten und übertrifft damit die zufällige Unterabtastung um relative 4,1 %.
English
Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.