Entraînement des modèles de récompense pour les processus vision-langage dans la mise à l'échelle au moment du test pour le raisonnement multimodal : Principales observations et leçons apprises
Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
September 27, 2025
papers.authors: Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria
cs.AI
papers.abstract
Les modèles de récompense de processus (PRMs) fournissent une supervision au niveau des étapes qui améliore la fiabilité du raisonnement dans les grands modèles de langage. Bien que les PRMs aient été largement étudiés dans les domaines basés sur le texte, leur extension aux modèles vision-langage (VLMs) reste limitée. Les PRMs vision-langage existants (VL-PRMs) s'appuient sur la recherche arborescente Monte Carlo (MCTS) pour la construction des données, ce qui peut souvent produire des signaux de supervision bruyants et limiter la généralisation entre les tâches. Dans ce travail, nous cherchons à éclairer l'espace de conception des VL-PRMs en explorant diverses stratégies pour la construction des ensembles de données, l'entraînement et la mise à l'échelle au moment du test. Premièrement, nous introduisons un cadre de synthèse de données hybride qui combine la MCTS avec les jugements d'un VLM puissant, produisant des étiquettes au niveau des étapes plus précises. Deuxièmement, nous proposons une supervision axée sur la perception, permettant à notre PRM de détecter explicitement les erreurs au stade de l'ancrage visuel du raisonnement. Troisièmement, nous évaluons systématiquement plusieurs stratégies de mise à l'échelle au moment du test, montrant que nos PRMs peuvent guider de manière fiable les VLMs vers des solutions plus précises. Nos expériences couvrant cinq benchmarks multimodaux divers (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista et MathVision) révèlent plusieurs insights clés : (i) les VL-PRMs utilisés comme modèles de récompense de résultat (ORMs) pendant la mise à l'échelle au moment du test (TTS) peuvent surpasser la sélection d'étapes de processus guidée par VL-PRM, (ii) des VL-PRMs plus petits peuvent égaler ou même surpasser des modèles plus grands dans la détection des erreurs de processus, (iii) les VL-PRMs révèlent des capacités de raisonnement latentes dans les architectures de VLM plus puissantes, (iv) la supervision au niveau de la perception conduit à des gains significatifs dans la mise à l'échelle au moment du test, et (v) la performance TTS de différentes politiques s'améliore sur des ensembles de données de raisonnement mathématique avancé malgré l'absence d'entraînement des VL-PRMs sur de tels ensembles de données. Nous espérons que notre travail motivera des recherches supplémentaires et soutiendra l'avancement des VLMs.
English
Process Reward Models (PRMs) provide step-level supervision that improves the
reliability of reasoning in large language models. While PRMs have been
extensively studied in text-based domains, their extension to Vision Language
Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on
Monte Carlo Tree Search (MCTS) for data construction, which can often produce
noisy supervision signals and limit generalization across tasks. In this work,
we aim to elucidate the design space of VL-PRMs by exploring diverse strategies
for dataset construction, training, and test-time scaling. First, we introduce
a hybrid data synthesis framework that combines MCTS with judgments from a
strong VLM, producing more accurate step-level labels. Second, we propose
perception-focused supervision, enabling our PRM to explicitly detect errors at
the visual grounding stage of reasoning. Third, we systematically evaluate
multiple test-time scaling strategies, showing that our PRMs can reliably guide
VLMs toward more accurate solutions. Our experiments covering five diverse
multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and
MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome
Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM
guided process step selection, (ii) smaller VL-PRMs can match or even surpass
larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning
abilities in stronger VLM backbones, (iv) perception-level supervision leads to
significant gains in test-time scaling, and (v) TTS performance of different
policies improve on advanced math reasoning datasets despite not training
VL-PRMs on such datasets. We hope our work will motivate further research and
support the advancement of VLMs.