Efficienza dei Dati di Addestramento nei Modelli di Ricompensa per Processi Multimodali

Abstract

I Modelli di Ricompensa di Processo Multimodale (MPRM) sono centrali per la supervisione a livello di step nel ragionamento visivo per i MLLM. L'addestramento degli MPRM richiede tipicamente corpora annotati su larga scala con il metodo Monte Carlo (MC), comportando costi di training sostanziali. Questo articolo studia l'efficienza dei dati per l'addestramento degli MPRM. I nostri esperimenti preliminari rivelano che l'addestramento degli MPRM satura rapidamente con un sottocampionamento casuale dei dati di training, indicando una ridondanza sostanziale all'interno dei corpora esistenti annotati con MC. Per spiegare ciò, formalizziamo un quadro teorico e riveliamo che gli aggiornamenti informativi del gradiente dipendono da due fattori: le miscele di etichette degli step positivi/negativi e l'affidabilità dell'etichetta (punteggi MC medi degli step positivi). Guidati da queste intuizioni, proponiamo il Punteggio di Informazione Bilanciata (BIS), che priorizza sia la miscela che l'affidabilità basandosi sui segnali MC esistenti a livello di rollout, senza comportare costi aggiuntivi. Su due backbone (InternVL2.5-8B e Qwen2.5-VL-7B) su VisualProcessBench, i sottoinsiemi selezionati con BIS eguagliano costantemente e addirittura superano le prestazioni con tutti i dati, utilizzando solo piccole frazioni. In particolare, il sottoinsieme BIS raggiunge le prestazioni complete dei dati utilizzando solo il 10% dei dati di training, migliorando rispetto al sottocampionamento casuale di un relativo 4.1%.

English

Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training.Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora.To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.

Efficienza dei Dati di Addestramento nei Modelli di Ricompensa per Processi Multimodali

Training Data Efficiency in Multimodal Process Reward Models

Abstract

Support