ChatPaper.aiChatPaper

Эффективность использования обучающих данных в мультимодальных моделях вознаграждения процессов

Training Data Efficiency in Multimodal Process Reward Models

February 4, 2026
Авторы: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang
cs.AI

Аннотация

Мультимодальные модели вознаграждения процессов (MPRM) играют ключевую роль в пошаговом контроле для визуального мышления в MLLM. Обучение MPRM обычно требует крупномасштабных корпусов с аннотацией методом Монте-Карло (MC), что сопряжено со значительными затратами на обучение. В данной статье исследуется эффективность использования данных для обучения MPRM. Наши предварительные эксперименты показывают, что обучение MPRM быстро насыщается при случайном субдискретизации обучающих данных, что указывает на существенную избыточность существующих корпусов с MC-аннотацией. Чтобы объяснить это, мы формализуем теоретическую основу и выявляем, что информативные градиентные обновления зависят от двух факторов: смеси меток положительных/отрицательных шагов и надежности меток (средние MC-оценки положительных шагов). Руководствуясь этими выводами, мы предлагаем Сбалансированный-Информационный Показатель (Balanced-Information Score, BIS), который отдает приоритет как смеси, так и надежности на основе существующих MC-сигналов на уровне rollout, не требуя никаких дополнительных затрат. На двух базовых архитектурах (InternVL2.5-8B и Qwen2.5-VL-7B) в рамках VisualProcessBench подмножества, отобранные по BIS, последовательно соответствуют и даже превосходят производительность на полном наборе данных, используя лишь малую его часть. Примечательно, что подмножество, отобранное по BIS, достигает производительности полного набора данных, используя только 10% обучающих данных, улучшая результат по сравнению со случайной субдискретизацией на относительные 4.1%.
English
Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.
PDF701February 6, 2026