Обучение моделей вознаграждения для Vision-Language Process с учетом масштабирования во время тестирования в мультимодальных рассуждениях: ключевые идеи и извлеченные уроки
Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
September 27, 2025
Авторы: Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria
cs.AI
Аннотация
Модели пошагового вознаграждения (Process Reward Models, PRMs) обеспечивают пошаговый контроль, повышающий надежность рассуждений в крупных языковых моделях. Хотя PRMs были тщательно изучены в текстовых областях, их применение в моделях, объединяющих зрение и язык (Vision Language Models, VLMs), остается ограниченным. Существующие PRMs для Vision-Language (VL-PRMs) полагаются на метод поиска по дереву Монте-Карло (Monte Carlo Tree Search, MCTS) для построения данных, что часто приводит к зашумленным сигналам контроля и ограничивает обобщение между задачами. В данной работе мы стремимся прояснить пространство проектирования VL-PRMs, исследуя различные стратегии для построения наборов данных, обучения и масштабирования на этапе тестирования. Во-первых, мы представляем гибридную структуру синтеза данных, которая сочетает MCTS с оценками мощной VLM, создавая более точные пошаговые метки. Во-вторых, мы предлагаем контроль, ориентированный на восприятие, что позволяет нашей PRM явно обнаруживать ошибки на этапе визуального закрепления в процессе рассуждений. В-третьих, мы систематически оцениваем несколько стратегий масштабирования на этапе тестирования, демонстрируя, что наши PRMs могут надежно направлять VLMs к более точным решениям. Наши эксперименты, охватывающие пять разнообразных мультимодальных тестов (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista и MathVision), выявили несколько ключевых инсайтов: (i) VL-PRMs, используемые как модели итогового вознаграждения (Outcome Reward Models, ORMs) при масштабировании на этапе тестирования (Test-Time Scaling, TTS), могут превосходить выбор шагов процесса, управляемый VL-PRM, (ii) меньшие по размеру VL-PRMs могут соответствовать или даже превосходить более крупные в обнаружении ошибок процесса, (iii) VL-PRMs раскрывают скрытые способности к рассуждению в более мощных архитектурах VLM, (iv) контроль на уровне восприятия приводит к значительному улучшению масштабирования на этапе тестирования, и (v) производительность различных стратегий TTS улучшается на продвинутых наборах данных для математических рассуждений, несмотря на отсутствие обучения VL-PRMs на таких данных. Мы надеемся, что наша работа вдохновит дальнейшие исследования и будет способствовать развитию VLMs.
English
Process Reward Models (PRMs) provide step-level supervision that improves the
reliability of reasoning in large language models. While PRMs have been
extensively studied in text-based domains, their extension to Vision Language
Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on
Monte Carlo Tree Search (MCTS) for data construction, which can often produce
noisy supervision signals and limit generalization across tasks. In this work,
we aim to elucidate the design space of VL-PRMs by exploring diverse strategies
for dataset construction, training, and test-time scaling. First, we introduce
a hybrid data synthesis framework that combines MCTS with judgments from a
strong VLM, producing more accurate step-level labels. Second, we propose
perception-focused supervision, enabling our PRM to explicitly detect errors at
the visual grounding stage of reasoning. Third, we systematically evaluate
multiple test-time scaling strategies, showing that our PRMs can reliably guide
VLMs toward more accurate solutions. Our experiments covering five diverse
multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and
MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome
Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM
guided process step selection, (ii) smaller VL-PRMs can match or even surpass
larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning
abilities in stronger VLM backbones, (iv) perception-level supervision leads to
significant gains in test-time scaling, and (v) TTS performance of different
policies improve on advanced math reasoning datasets despite not training
VL-PRMs on such datasets. We hope our work will motivate further research and
support the advancement of VLMs.