ChatPaper.aiChatPaper

Het trainen van Vision-Language Process Reward-modellen voor schaling tijdens testen in multimodale redenering: Belangrijke inzichten en geleerde lessen

Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

September 27, 2025
Auteurs: Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria
cs.AI

Samenvatting

Process Reward Models (PRMs) bieden stap-voor-stap supervisie die de betrouwbaarheid van redeneren in grote taalmodellen verbetert. Hoewel PRMs uitgebreid zijn bestudeerd in tekstgebaseerde domeinen, blijft hun uitbreiding naar Vision Language Models (VLMs) beperkt. Bestaande Vision-Language PRMs (VL-PRMs) vertrouwen op Monte Carlo Tree Search (MCTS) voor dataconstructie, wat vaak ruisachtige supervisiesignalen kan produceren en de generalisatie over taken kan beperken. In dit werk streven we ernaar om de ontwerpruimte van VL-PRMs te verhelderen door diverse strategieën voor datasetconstructie, training en schaling tijdens de testfase te onderzoeken. Ten eerste introduceren we een hybride data-syntheseframework dat MCTS combineert met beoordelingen van een sterk VLM, waardoor nauwkeurigere stap-voor-stap labels worden geproduceerd. Ten tweede stellen we perceptiegerichte supervisie voor, waardoor onze PRM expliciet fouten kan detecteren in de visuele verankeringsfase van het redeneren. Ten derde evalueren we systematisch meerdere schaalstrategieën tijdens de testfase, waarbij we aantonen dat onze PRMs VLMs betrouwbaar kunnen begeleiden naar nauwkeurigere oplossingen. Onze experimenten, die vijf diverse multimodale benchmarks omvatten (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista en MathVision), onthullen verschillende belangrijke inzichten: (i) VL-PRMs kunnen, wanneer ze worden gebruikt als Outcome Reward Models (ORMs) tijdens schaling in de testfase (TTS), VL-PRM-geleide processtapselectie overtreffen, (ii) kleinere VL-PRMs kunnen grotere evenaren of zelfs overtreffen in het detecteren van procesfouten, (iii) VL-PRMs onthullen latente redeneervaardigheden in sterkere VLM-backbones, (iv) perceptieniveau-supervisie leidt tot significante verbeteringen in schaling tijdens de testfase, en (v) de TTS-prestaties van verschillende beleidslijnen verbeteren op geavanceerde wiskundige redeneerdatasets, ondanks dat VL-PRMs niet op dergelijke datasets zijn getraind. We hopen dat ons werk verder onderzoek zal stimuleren en de vooruitgang van VLMs zal ondersteunen.
English
Process Reward Models (PRMs) provide step-level supervision that improves the reliability of reasoning in large language models. While PRMs have been extensively studied in text-based domains, their extension to Vision Language Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on Monte Carlo Tree Search (MCTS) for data construction, which can often produce noisy supervision signals and limit generalization across tasks. In this work, we aim to elucidate the design space of VL-PRMs by exploring diverse strategies for dataset construction, training, and test-time scaling. First, we introduce a hybrid data synthesis framework that combines MCTS with judgments from a strong VLM, producing more accurate step-level labels. Second, we propose perception-focused supervision, enabling our PRM to explicitly detect errors at the visual grounding stage of reasoning. Third, we systematically evaluate multiple test-time scaling strategies, showing that our PRMs can reliably guide VLMs toward more accurate solutions. Our experiments covering five diverse multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM guided process step selection, (ii) smaller VL-PRMs can match or even surpass larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning abilities in stronger VLM backbones, (iv) perception-level supervision leads to significant gains in test-time scaling, and (v) TTS performance of different policies improve on advanced math reasoning datasets despite not training VL-PRMs on such datasets. We hope our work will motivate further research and support the advancement of VLMs.
PDF52October 2, 2025