Entrenamiento de Modelos de Recompensa para Procesos Visión-Lenguaje en la Escalabilidad en Tiempo de Prueba para el Razonamiento Multimodal: Perspectivas Clave y Lecciones Aprendidas

Resumen

Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) proporcionan supervisión a nivel de paso que mejora la confiabilidad del razonamiento en modelos de lenguaje de gran escala. Aunque los PRMs han sido ampliamente estudiados en dominios basados en texto, su extensión a Modelos de Lenguaje Visual (VLMs) sigue siendo limitada. Los PRMs de Lenguaje Visual existentes (VL-PRMs) dependen de la Búsqueda de Árbol de Monte Carlo (MCTS) para la construcción de datos, lo que a menudo puede producir señales de supervisión ruidosas y limitar la generalización entre tareas. En este trabajo, buscamos esclarecer el espacio de diseño de los VL-PRMs explorando diversas estrategias para la construcción de conjuntos de datos, entrenamiento y escalado en tiempo de prueba. Primero, introducimos un marco de síntesis de datos híbrido que combina MCTS con juicios de un VLM fuerte, produciendo etiquetas a nivel de paso más precisas. Segundo, proponemos una supervisión enfocada en la percepción, permitiendo que nuestro PRM detecte explícitamente errores en la etapa de anclaje visual del razonamiento. Tercero, evaluamos sistemáticamente múltiples estrategias de escalado en tiempo de prueba, mostrando que nuestros PRMs pueden guiar de manera confiable a los VLMs hacia soluciones más precisas. Nuestros experimentos, que cubren cinco benchmarks multimodales diversos (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista y MathVision), revelan varias conclusiones clave: (i) los VL-PRMs, cuando se usan como Modelos de Recompensa de Resultados (ORMs) durante el escalado en tiempo de prueba (TTS), pueden superar la selección de pasos de proceso guiada por VL-PRM, (ii) VL-PRMs más pequeños pueden igualar o incluso superar a los más grandes en la detección de errores de proceso, (iii) los VL-PRMs descubren habilidades de razonamiento latentes en arquitecturas VLM más fuertes, (iv) la supervisión a nivel de percepción conduce a ganancias significativas en el escalado en tiempo de prueba, y (v) el rendimiento de TTS de diferentes políticas mejora en conjuntos de datos avanzados de razonamiento matemático a pesar de no entrenar VL-PRMs en dichos conjuntos de datos. Esperamos que nuestro trabajo motive investigaciones futuras y apoye el avance de los VLMs.

English

Process Reward Models (PRMs) provide step-level supervision that improves the reliability of reasoning in large language models. While PRMs have been extensively studied in text-based domains, their extension to Vision Language Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on Monte Carlo Tree Search (MCTS) for data construction, which can often produce noisy supervision signals and limit generalization across tasks. In this work, we aim to elucidate the design space of VL-PRMs by exploring diverse strategies for dataset construction, training, and test-time scaling. First, we introduce a hybrid data synthesis framework that combines MCTS with judgments from a strong VLM, producing more accurate step-level labels. Second, we propose perception-focused supervision, enabling our PRM to explicitly detect errors at the visual grounding stage of reasoning. Third, we systematically evaluate multiple test-time scaling strategies, showing that our PRMs can reliably guide VLMs toward more accurate solutions. Our experiments covering five diverse multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM guided process step selection, (ii) smaller VL-PRMs can match or even surpass larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning abilities in stronger VLM backbones, (iv) perception-level supervision leads to significant gains in test-time scaling, and (v) TTS performance of different policies improve on advanced math reasoning datasets despite not training VL-PRMs on such datasets. We hope our work will motivate further research and support the advancement of VLMs.

Entrenamiento de Modelos de Recompensa para Procesos Visión-Lenguaje en la Escalabilidad en Tiempo de Prueba para el Razonamiento Multimodal: Perspectivas Clave y Lecciones Aprendidas

Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

Resumen

Support