ChatPaper.aiChatPaper

Trainingsdatadoelmatigheid in Multimodale Procesbeloningsmodellen

Training Data Efficiency in Multimodal Process Reward Models

February 4, 2026
Auteurs: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang
cs.AI

Samenvatting

Multimodale Proces Beloningsmodellen (MPRM's) vormen de kern van stap-voor-stap supervisie voor visueel redeneren in MLLM's. De training van MPRM's vereist typisch grootschalige, met Monte Carlo (MC) geannoteerde corpora, wat aanzienlijke trainingskosten met zich meebrengt. Dit artikel onderzoekt de data-efficiëntie van MPRM-training. Onze eerste experimenten tonen aan dat MPRM-training snel verzadigt onder willekeurige subsampling van de trainingsdata, wat duidt op aanzienlijke redundantie binnen bestaande MC-geannoteerde corpora. Om dit te verklaren, formaliseren we een theoretisch kader en laten we zien dat informatieve gradient-updates afhangen van twee factoren: labelmengsels van positieve/negatieve stappen en labelbetrouwbaarheid (gemiddelde MC-scores van positieve stappen). Geleid door deze inzichten stellen we de Balanced-Information Score (BIS) voor, die zowel mengsel als betrouwbaarheid prioriteert op basis van bestaande MC-signalen op rollout-niveau, zonder extra kosten te genereren. Over twee backbones (InternVL2.5-8B en Qwen2.5-VL-7B) heen op VisualProcessBench, evenaren en overtreffen BIS-geselecteerde subsets consistent de prestaties van de volledige dataset bij kleine fracties daarvan. Opmerkelijk is dat het BIS-subset de prestaties van de volledige dataset bereikt met slechts 10% van de trainingsdata, een relatieve verbetering van 4.1% ten opzichte van willekeurige subsampling.
English
Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.
PDF701February 6, 2026