Entraînement des modèles de récompense pour les processus vision-langage dans la mise à l'échelle au moment du test pour le raisonnement multimodal : Principales observations et leçons apprises

papers.abstract

Les modèles de récompense de processus (PRMs) fournissent une supervision au niveau des étapes qui améliore la fiabilité du raisonnement dans les grands modèles de langage. Bien que les PRMs aient été largement étudiés dans les domaines basés sur le texte, leur extension aux modèles vision-langage (VLMs) reste limitée. Les PRMs vision-langage existants (VL-PRMs) s'appuient sur la recherche arborescente Monte Carlo (MCTS) pour la construction des données, ce qui peut souvent produire des signaux de supervision bruyants et limiter la généralisation entre les tâches. Dans ce travail, nous cherchons à éclairer l'espace de conception des VL-PRMs en explorant diverses stratégies pour la construction des ensembles de données, l'entraînement et la mise à l'échelle au moment du test. Premièrement, nous introduisons un cadre de synthèse de données hybride qui combine la MCTS avec les jugements d'un VLM puissant, produisant des étiquettes au niveau des étapes plus précises. Deuxièmement, nous proposons une supervision axée sur la perception, permettant à notre PRM de détecter explicitement les erreurs au stade de l'ancrage visuel du raisonnement. Troisièmement, nous évaluons systématiquement plusieurs stratégies de mise à l'échelle au moment du test, montrant que nos PRMs peuvent guider de manière fiable les VLMs vers des solutions plus précises. Nos expériences couvrant cinq benchmarks multimodaux divers (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista et MathVision) révèlent plusieurs insights clés : (i) les VL-PRMs utilisés comme modèles de récompense de résultat (ORMs) pendant la mise à l'échelle au moment du test (TTS) peuvent surpasser la sélection d'étapes de processus guidée par VL-PRM, (ii) des VL-PRMs plus petits peuvent égaler ou même surpasser des modèles plus grands dans la détection des erreurs de processus, (iii) les VL-PRMs révèlent des capacités de raisonnement latentes dans les architectures de VLM plus puissantes, (iv) la supervision au niveau de la perception conduit à des gains significatifs dans la mise à l'échelle au moment du test, et (v) la performance TTS de différentes politiques s'améliore sur des ensembles de données de raisonnement mathématique avancé malgré l'absence d'entraînement des VL-PRMs sur de tels ensembles de données. Nous espérons que notre travail motivera des recherches supplémentaires et soutiendra l'avancement des VLMs.

English

Process Reward Models (PRMs) provide step-level supervision that improves the reliability of reasoning in large language models. While PRMs have been extensively studied in text-based domains, their extension to Vision Language Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on Monte Carlo Tree Search (MCTS) for data construction, which can often produce noisy supervision signals and limit generalization across tasks. In this work, we aim to elucidate the design space of VL-PRMs by exploring diverse strategies for dataset construction, training, and test-time scaling. First, we introduce a hybrid data synthesis framework that combines MCTS with judgments from a strong VLM, producing more accurate step-level labels. Second, we propose perception-focused supervision, enabling our PRM to explicitly detect errors at the visual grounding stage of reasoning. Third, we systematically evaluate multiple test-time scaling strategies, showing that our PRMs can reliably guide VLMs toward more accurate solutions. Our experiments covering five diverse multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM guided process step selection, (ii) smaller VL-PRMs can match or even surpass larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning abilities in stronger VLM backbones, (iv) perception-level supervision leads to significant gains in test-time scaling, and (v) TTS performance of different policies improve on advanced math reasoning datasets despite not training VL-PRMs on such datasets. We hope our work will motivate further research and support the advancement of VLMs.

Entraînement des modèles de récompense pour les processus vision-langage dans la mise à l'échelle au moment du test pour le raisonnement multimodal : Principales observations et leçons apprises

Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

papers.abstract

Support