Eficiencia de los Datos de Entrenamiento en Modelos de Recompensa de Procesos Multimodales
Training Data Efficiency in Multimodal Process Reward Models
February 4, 2026
Autores: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang
cs.AI
Resumen
Los Modelos de Recompensa de Procesos Multimodales (MPRM) son fundamentales para la supervisión a nivel de paso en el razonamiento visual de los MLLM. El entrenamiento de los MPRM normalmente requiere corpus anotados a gran escala con Monte Carlo (MC), lo que conlleva un coste de entrenamiento sustancial. Este artículo estudia la eficiencia de datos para el entrenamiento de MPRM. Nuestros experimentos preliminares revelan que el entrenamiento de MPRM se satura rápidamente con submuestreos aleatorios de los datos de entrenamiento, lo que indica una redundancia sustancial en los corpus anotados con MC existentes. Para explicar esto, formalizamos un marco teórico y revelamos que las actualizaciones de gradiente informativas dependen de dos factores: las mezclas de etiquetas de pasos positivos/negativos y la fiabilidad de las etiquetas (puntuaciones MC promedio de los pasos positivos). Guiados por estas observaciones, proponemos la Puntuación de Información Equilibrada (BIS), que prioriza tanto la mezcla como la fiabilidad basándose en las señales MC existentes a nivel de *rollout*, sin incurrir en ningún coste adicional. En dos arquitecturas base (InternVL2.5-8B y Qwen2.5-VL-7B) evaluadas en VisualProcessBench, los subconjuntos seleccionados por BIS igualan e incluso superan consistentemente el rendimiento obtenido con todos los datos, utilizando solo pequeñas fracciones de estos. Notablemente, el subconjunto BIS alcanza el rendimiento de los datos completos utilizando solo el 10% de los datos de entrenamiento, mejorando el submuestreo aleatorio en un 4.1% relativo.
English
Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.