Entrenamiento de Modelos de Recompensa para Procesos Visión-Lenguaje en la Escalabilidad en Tiempo de Prueba para el Razonamiento Multimodal: Perspectivas Clave y Lecciones Aprendidas
Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
September 27, 2025
Autores: Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria
cs.AI
Resumen
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) proporcionan supervisión a nivel de paso que mejora la confiabilidad del razonamiento en modelos de lenguaje de gran escala. Aunque los PRMs han sido ampliamente estudiados en dominios basados en texto, su extensión a Modelos de Lenguaje Visual (VLMs) sigue siendo limitada. Los PRMs de Lenguaje Visual existentes (VL-PRMs) dependen de la Búsqueda de Árbol de Monte Carlo (MCTS) para la construcción de datos, lo que a menudo puede producir señales de supervisión ruidosas y limitar la generalización entre tareas. En este trabajo, buscamos esclarecer el espacio de diseño de los VL-PRMs explorando diversas estrategias para la construcción de conjuntos de datos, entrenamiento y escalado en tiempo de prueba. Primero, introducimos un marco de síntesis de datos híbrido que combina MCTS con juicios de un VLM fuerte, produciendo etiquetas a nivel de paso más precisas. Segundo, proponemos una supervisión enfocada en la percepción, permitiendo que nuestro PRM detecte explícitamente errores en la etapa de anclaje visual del razonamiento. Tercero, evaluamos sistemáticamente múltiples estrategias de escalado en tiempo de prueba, mostrando que nuestros PRMs pueden guiar de manera confiable a los VLMs hacia soluciones más precisas. Nuestros experimentos, que cubren cinco benchmarks multimodales diversos (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista y MathVision), revelan varias conclusiones clave: (i) los VL-PRMs, cuando se usan como Modelos de Recompensa de Resultados (ORMs) durante el escalado en tiempo de prueba (TTS), pueden superar la selección de pasos de proceso guiada por VL-PRM, (ii) VL-PRMs más pequeños pueden igualar o incluso superar a los más grandes en la detección de errores de proceso, (iii) los VL-PRMs descubren habilidades de razonamiento latentes en arquitecturas VLM más fuertes, (iv) la supervisión a nivel de percepción conduce a ganancias significativas en el escalado en tiempo de prueba, y (v) el rendimiento de TTS de diferentes políticas mejora en conjuntos de datos avanzados de razonamiento matemático a pesar de no entrenar VL-PRMs en dichos conjuntos de datos. Esperamos que nuestro trabajo motive investigaciones futuras y apoye el avance de los VLMs.
English
Process Reward Models (PRMs) provide step-level supervision that improves the
reliability of reasoning in large language models. While PRMs have been
extensively studied in text-based domains, their extension to Vision Language
Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on
Monte Carlo Tree Search (MCTS) for data construction, which can often produce
noisy supervision signals and limit generalization across tasks. In this work,
we aim to elucidate the design space of VL-PRMs by exploring diverse strategies
for dataset construction, training, and test-time scaling. First, we introduce
a hybrid data synthesis framework that combines MCTS with judgments from a
strong VLM, producing more accurate step-level labels. Second, we propose
perception-focused supervision, enabling our PRM to explicitly detect errors at
the visual grounding stage of reasoning. Third, we systematically evaluate
multiple test-time scaling strategies, showing that our PRMs can reliably guide
VLMs toward more accurate solutions. Our experiments covering five diverse
multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and
MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome
Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM
guided process step selection, (ii) smaller VL-PRMs can match or even surpass
larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning
abilities in stronger VLM backbones, (iv) perception-level supervision leads to
significant gains in test-time scaling, and (v) TTS performance of different
policies improve on advanced math reasoning datasets despite not training
VL-PRMs on such datasets. We hope our work will motivate further research and
support the advancement of VLMs.