ChatPaper.aiChatPaper

다중모달 과정 보상 모델의 훈련 데이터 효율성

Training Data Efficiency in Multimodal Process Reward Models

February 4, 2026
저자: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang
cs.AI

초록

멀티모달 프로세스 보상 모델(MPRM)은 MLLM의 시각적 추론을 위한 단계별 감독의 핵심 요소입니다. MPRM 학습에는 일반적으로 대규모 몬테카를로(MC) 주석 코퍼스가 필요하며, 이는 상당한 학습 비용을 수반합니다. 본 논문은 MPRM 학습의 데이터 효율성을 연구합니다. 예비 실험 결과, MPRM 학습은 훈련 데이터를 무작위로 하위 샘플링할 경우 빠르게 포화되는 것으로 나타나, 기존 MC 주석 코퍼스 내에 상당한 중복성이 있음을 시사합니다. 이를 설명하기 위해 우리는 이론적 프레임워크를 정형화하고 정보성 있는 그래디언트 업데이트가 두 가지 요인(양/음성 단계의 라벨 혼합 비율과 라벨 신뢰도(양성 단계의 평균 MC 점수))에 의존함을 밝혔습니다. 이러한 통찰을 바탕으로, 우리는 별도의 비용 없이 롤아웃 수준의 기존 MC 신호를 기반으로 혼합 비율과 신뢰도를 모두 우선순위에 두는 균형 정보 점수(BIS)를 제안합니다. VisualProcessBench에서 두 백본(InternVL2.5-8B 및 Qwen2.5-VL-7B)에 걸쳐, BIS로 선별된 부분 집합은 극히 일부의 데이터만으로도 전체 데이터 성능을 일관되게 달성하거나 심지어 능가했습니다. 특히 BIS 부분 집합은 훈련 데이터의 10%만 사용하여 전체 데이터 성능에 도달했으며, 이는 무작위 하위 샘플링 대비 4.1% 상대적 성능 향상에 해당합니다.
English
Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.
PDF701February 6, 2026