ChatPaper.aiChatPaper

Eficiência de Dados de Treinamento em Modelos de Recompensa de Processo Multimodal

Training Data Efficiency in Multimodal Process Reward Models

February 4, 2026
Autores: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang
cs.AI

Resumo

Os Modelos de Recompensa de Processo Multimodal (MPRMs) são centrais para a supervisão a nível de etapa no raciocínio visual em MLLMs. O treinamento de MPRMs geralmente requer corpora anotados em larga escala com Monte Carlo (MC), incorrendo em custos substanciais de treinamento. Este artigo estuda a eficiência de dados para o treinamento de MPRMs. Nossos experimentos preliminares revelam que o treinamento de MPRMs satura rapidamente sob subamostragem aleatória dos dados de treinamento, indicando redundância substancial nos corpora anotados com MC existentes. Para explicar isso, formalizamos um arcabouço teórico e revelamos que as atualizações informativas do gradiente dependem de dois fatores: misturas de rótulos de etapas positivas/negativas e a confiabilidade do rótulo (pontuações médias de MC das etapas positivas). Guiados por essas percepções, propomos o *Balanced-Information Score* (BIS), que prioriza tanto a mistura quanto a confiabilidade com base nos sinais de MC existentes a nível de *rollout*, sem incorrer em custos adicionais. Em duas arquiteturas (InternVL2.5-8B e Qwen2.5-VL-7B) no VisualProcessBench, subconjuntos selecionados por BIS consistentemente igualam e até superam o desempenho com todos os dados usando pequenas frações. Notavelmente, o subconjunto BIS atinge o desempenho de dados completos usando apenas 10% dos dados de treinamento, melhorando em relação à subamostragem aleatória em 4,1% relativo.
English
Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.
PDF733February 8, 2026