Training von Vision-Language-Prozess-Belohnungsmodellen für Test-Zeit-Skalierung in multimodaler Argumentation: Wesentliche Erkenntnisse und gewonnene Erfahrungen

papers.abstract

Prozess-Bewertungsmodelle (PRMs) bieten schrittweise Überwachung, die die Zuverlässigkeit des Schlussfolgerns in großen Sprachmodellen verbessert. Während PRMs in textbasierten Domänen umfassend untersucht wurden, bleibt ihre Erweiterung auf Vision-Language-Modelle (VLMs) begrenzt. Bestehende Vision-Language-PRMs (VL-PRMs) stützen sich auf Monte-Carlo-Baumsuche (MCTS) für die Datenerstellung, was oft verrauschte Überwachungssignale erzeugen und die Generalisierung über Aufgaben hinweg einschränken kann. In dieser Arbeit zielen wir darauf ab, den Gestaltungsraum von VL-PRMs zu erhellen, indem wir verschiedene Strategien für die Datensatzerstellung, das Training und die Skalierung zur Testzeit untersuchen. Zunächst führen wir ein hybrides Datensynthese-Framework ein, das MCTS mit Bewertungen eines starken VLMs kombiniert und genauere schrittweise Labels erzeugt. Zweitens schlagen wir eine wahrnehmungsfokussierte Überwachung vor, die es unserem PRM ermöglicht, Fehler in der visuellen Verankerungsphase des Schlussfolgerns explizit zu erkennen. Drittens bewerten wir systematisch mehrere Skalierungsstrategien zur Testzeit und zeigen, dass unsere PRMs VLMs zuverlässig zu genaueren Lösungen führen können. Unsere Experimente, die fünf verschiedene multimodale Benchmarks abdecken (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista und MathVision), offenbaren mehrere wichtige Erkenntnisse: (i) VL-PRMs können, wenn sie als Ergebnis-Bewertungsmodelle (ORMs) während der Skalierung zur Testzeit (TTS) verwendet werden, die schrittweise Prozessauswahl durch VL-PRMs übertreffen, (ii) kleinere VL-PRMs können größere in der Erkennung von Prozessfehlern übertreffen oder sogar übertreffen, (iii) VL-PRMs decken latente Schlussfolgerungsfähigkeiten in stärkeren VLM-Backbones auf, (iv) wahrnehmungsbasierte Überwachung führt zu signifikanten Verbesserungen in der Skalierung zur Testzeit, und (v) die TTS-Leistung verschiedener Strategien verbessert sich auf fortgeschrittenen mathematischen Schlussfolgerungsdatensätzen, obwohl VL-PRMs nicht auf solchen Datensätzen trainiert wurden. Wir hoffen, dass unsere Arbeit weitere Forschung anregt und die Weiterentwicklung von VLMs unterstützt.

English

Process Reward Models (PRMs) provide step-level supervision that improves the reliability of reasoning in large language models. While PRMs have been extensively studied in text-based domains, their extension to Vision Language Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on Monte Carlo Tree Search (MCTS) for data construction, which can often produce noisy supervision signals and limit generalization across tasks. In this work, we aim to elucidate the design space of VL-PRMs by exploring diverse strategies for dataset construction, training, and test-time scaling. First, we introduce a hybrid data synthesis framework that combines MCTS with judgments from a strong VLM, producing more accurate step-level labels. Second, we propose perception-focused supervision, enabling our PRM to explicitly detect errors at the visual grounding stage of reasoning. Third, we systematically evaluate multiple test-time scaling strategies, showing that our PRMs can reliably guide VLMs toward more accurate solutions. Our experiments covering five diverse multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM guided process step selection, (ii) smaller VL-PRMs can match or even surpass larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning abilities in stronger VLM backbones, (iv) perception-level supervision leads to significant gains in test-time scaling, and (v) TTS performance of different policies improve on advanced math reasoning datasets despite not training VL-PRMs on such datasets. We hope our work will motivate further research and support the advancement of VLMs.

Training von Vision-Language-Prozess-Belohnungsmodellen für Test-Zeit-Skalierung in multimodaler Argumentation: Wesentliche Erkenntnisse und gewonnene Erfahrungen

Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

papers.abstract

Support