Efficacité des Données d'Entraînement dans les Modèles de Récompense de Processus Multimodaux
Training Data Efficiency in Multimodal Process Reward Models
February 4, 2026
papers.authors: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang
cs.AI
papers.abstract
Les Modèles de Récompense de Processus Multimodaux (MPRM) sont au cœur de la supervision au niveau des étapes pour le raisonnement visuel dans les MLLM. L'entraînement des MPRM nécessite généralement de vastes corpus annotés par Monte Carlo (MC), ce qui engendre un coût substantiel. Cet article étudie l'efficacité des données pour l'entraînement des MPRM. Nos expériences préliminaires révèlent que l'entraînement des MPRM atteint rapidement un plateau lors d'un sous-échantillonnage aléatoire des données d'entraînement, indiquant une redondance importante dans les corpus annotés par MC existants. Pour l'expliquer, nous formalisons un cadre théorique et révélons que les mises à jour du gradient informatives dépendent de deux facteurs : le mélange des étiquettes des étapes positives/négatives et la fiabilité des étiquettes (scores MC moyens des étapes positives). Guidés par ces insights, nous proposons le Score d'Information Équilibrée (BIS), qui priorise à la fois le mélange et la fiabilité en se basant sur les signaux MC existants au niveau du déploiement, sans engendrer de coût supplémentaire. Sur deux architectures (InternVL2.5-8B et Qwen2.5-VL-7B) évaluées sur VisualProcessBench, les sous-ensembles sélectionnés par BIS égalent et surpassent même les performances obtenues avec toutes les données, en n'utilisant qu'une petite fraction de celles-ci. Notamment, le sous-ensemble BIS atteint les performances du jeu de données complet avec seulement 10 % des données d'entraînement, améliorant le sous-échantillonnage aléatoire de 4,1 % en valeur relative.
English
Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.