Treinamento de Modelos de Recompensa para Processamento Visão-Linguagem em Escalonamento no Momento do Teste para Raciocínio Multimodal: Principais Insights e Lições Aprendidas
Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
September 27, 2025
Autores: Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria
cs.AI
Resumo
Modelos de Recompensa de Processo (PRMs) fornecem supervisão em nível de etapa que melhora a confiabilidade do raciocínio em grandes modelos de linguagem. Embora os PRMs tenham sido extensivamente estudados em domínios baseados em texto, sua extensão para Modelos de Linguagem Visual (VLMs) permanece limitada. Os PRMs Visuais-Linguísticos (VL-PRMs) existentes dependem da Busca em Árvore de Monte Carlo (MCTS) para a construção de dados, o que frequentemente pode produzir sinais de supervisão ruidosos e limitar a generalização entre tarefas. Neste trabalho, buscamos elucidar o espaço de design dos VL-PRMs explorando diversas estratégias para a construção de conjuntos de dados, treinamento e escalonamento em tempo de teste. Primeiro, introduzimos um framework híbrido de síntese de dados que combina MCTS com julgamentos de um VLM forte, produzindo rótulos de etapa mais precisos. Segundo, propomos uma supervisão focada em percepção, permitindo que nosso PRM detecte explicitamente erros na etapa de fundamentação visual do raciocínio. Terceiro, avaliamos sistematicamente múltiplas estratégias de escalonamento em tempo de teste, mostrando que nossos PRMs podem guiar VLMs de forma confiável em direção a soluções mais precisas. Nossos experimentos, abrangendo cinco benchmarks multimodais diversos (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista e MathVision), revelam várias conclusões-chave: (i) VL-PRMs, quando usados como Modelos de Recompensa de Resultado (ORMs) durante o escalonamento em tempo de teste (TTS), podem superar a seleção de etapas de processo guiada por VL-PRM, (ii) VL-PRMs menores podem igualar ou até superar os maiores na detecção de erros de processo, (iii) VL-PRMs revelam habilidades de raciocínio latentes em backbones de VLM mais fortes, (iv) a supervisão em nível de percepção leva a ganhos significativos no escalonamento em tempo de teste, e (v) o desempenho de TTS de diferentes políticas melhora em conjuntos de dados avançados de raciocínio matemático, apesar de não treinar VL-PRMs nesses conjuntos de dados. Esperamos que nosso trabalho motive pesquisas adicionais e apoie o avanço dos VLMs.
English
Process Reward Models (PRMs) provide step-level supervision that improves the
reliability of reasoning in large language models. While PRMs have been
extensively studied in text-based domains, their extension to Vision Language
Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on
Monte Carlo Tree Search (MCTS) for data construction, which can often produce
noisy supervision signals and limit generalization across tasks. In this work,
we aim to elucidate the design space of VL-PRMs by exploring diverse strategies
for dataset construction, training, and test-time scaling. First, we introduce
a hybrid data synthesis framework that combines MCTS with judgments from a
strong VLM, producing more accurate step-level labels. Second, we propose
perception-focused supervision, enabling our PRM to explicitly detect errors at
the visual grounding stage of reasoning. Third, we systematically evaluate
multiple test-time scaling strategies, showing that our PRMs can reliably guide
VLMs toward more accurate solutions. Our experiments covering five diverse
multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and
MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome
Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM
guided process step selection, (ii) smaller VL-PRMs can match or even surpass
larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning
abilities in stronger VLM backbones, (iv) perception-level supervision leads to
significant gains in test-time scaling, and (v) TTS performance of different
policies improve on advanced math reasoning datasets despite not training
VL-PRMs on such datasets. We hope our work will motivate further research and
support the advancement of VLMs.