Addestramento di Modelli di Ricompensa per Processi Visione-Linguaggio per il Ridimensionamento al Momento del Test nel Ragionamento Multimodale: Principali Approfondimenti e Lezioni Apprese
Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
September 27, 2025
Autori: Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria
cs.AI
Abstract
I Modelli di Ricompensa per Processi (PRM) forniscono una supervisione a livello di passaggio che migliora l'affidabilità del ragionamento nei grandi modelli linguistici. Sebbene i PRM siano stati ampiamente studiati in domini basati su testo, la loro estensione ai Modelli Linguaggio-Visione (VLM) rimane limitata. Gli attuali PRM Linguaggio-Visione (VL-PRM) si basano sulla Ricerca ad Albero Monte Carlo (MCTS) per la costruzione dei dati, che può spesso produrre segnali di supervisione rumorosi e limitare la generalizzazione tra i compiti. In questo lavoro, miriamo a chiarire lo spazio di progettazione dei VL-PRM esplorando diverse strategie per la costruzione del dataset, l'addestramento e il ridimensionamento durante il test. In primo luogo, introduciamo un framework di sintesi dati ibrido che combina MCTS con giudizi di un VLM potente, producendo etichette a livello di passaggio più accurate. In secondo luogo, proponiamo una supervisione focalizzata sulla percezione, consentendo al nostro PRM di rilevare esplicitamente gli errori nella fase di ancoraggio visivo del ragionamento. In terzo luogo, valutiamo sistematicamente diverse strategie di ridimensionamento durante il test, dimostrando che i nostri PRM possono guidare in modo affidabile i VLM verso soluzioni più accurate. I nostri esperimenti, che coprono cinque benchmark multimodali diversi (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista e MathVision), rivelano diverse intuizioni chiave: (i) i VL-PRM, quando utilizzati come Modelli di Ricompensa per Risultati (ORM) durante il ridimensionamento durante il test (TTS), possono superare la selezione dei passaggi del processo guidata da VL-PRM, (ii) VL-PRM più piccoli possono eguagliare o addirittura superare quelli più grandi nel rilevare errori di processo, (iii) i VL-PRM scoprono capacità di ragionamento latenti in backbone VLM più forti, (iv) la supervisione a livello di percezione porta a guadagni significativi nel ridimensionamento durante il test, e (v) le prestazioni TTS di diverse politiche migliorano su dataset avanzati di ragionamento matematico nonostante i VL-PRM non siano stati addestrati su tali dataset. Speriamo che il nostro lavoro possa motivare ulteriori ricerche e supportare l'avanzamento dei VLM.
English
Process Reward Models (PRMs) provide step-level supervision that improves the
reliability of reasoning in large language models. While PRMs have been
extensively studied in text-based domains, their extension to Vision Language
Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on
Monte Carlo Tree Search (MCTS) for data construction, which can often produce
noisy supervision signals and limit generalization across tasks. In this work,
we aim to elucidate the design space of VL-PRMs by exploring diverse strategies
for dataset construction, training, and test-time scaling. First, we introduce
a hybrid data synthesis framework that combines MCTS with judgments from a
strong VLM, producing more accurate step-level labels. Second, we propose
perception-focused supervision, enabling our PRM to explicitly detect errors at
the visual grounding stage of reasoning. Third, we systematically evaluate
multiple test-time scaling strategies, showing that our PRMs can reliably guide
VLMs toward more accurate solutions. Our experiments covering five diverse
multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and
MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome
Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM
guided process step selection, (ii) smaller VL-PRMs can match or even surpass
larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning
abilities in stronger VLM backbones, (iv) perception-level supervision leads to
significant gains in test-time scaling, and (v) TTS performance of different
policies improve on advanced math reasoning datasets despite not training
VL-PRMs on such datasets. We hope our work will motivate further research and
support the advancement of VLMs.