Обучение моделей вознаграждения для Vision-Language Process с учетом масштабирования во время тестирования в мультимодальных рассуждениях: ключевые идеи и извлеченные уроки

Аннотация

Модели пошагового вознаграждения (Process Reward Models, PRMs) обеспечивают пошаговый контроль, повышающий надежность рассуждений в крупных языковых моделях. Хотя PRMs были тщательно изучены в текстовых областях, их применение в моделях, объединяющих зрение и язык (Vision Language Models, VLMs), остается ограниченным. Существующие PRMs для Vision-Language (VL-PRMs) полагаются на метод поиска по дереву Монте-Карло (Monte Carlo Tree Search, MCTS) для построения данных, что часто приводит к зашумленным сигналам контроля и ограничивает обобщение между задачами. В данной работе мы стремимся прояснить пространство проектирования VL-PRMs, исследуя различные стратегии для построения наборов данных, обучения и масштабирования на этапе тестирования. Во-первых, мы представляем гибридную структуру синтеза данных, которая сочетает MCTS с оценками мощной VLM, создавая более точные пошаговые метки. Во-вторых, мы предлагаем контроль, ориентированный на восприятие, что позволяет нашей PRM явно обнаруживать ошибки на этапе визуального закрепления в процессе рассуждений. В-третьих, мы систематически оцениваем несколько стратегий масштабирования на этапе тестирования, демонстрируя, что наши PRMs могут надежно направлять VLMs к более точным решениям. Наши эксперименты, охватывающие пять разнообразных мультимодальных тестов (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista и MathVision), выявили несколько ключевых инсайтов: (i) VL-PRMs, используемые как модели итогового вознаграждения (Outcome Reward Models, ORMs) при масштабировании на этапе тестирования (Test-Time Scaling, TTS), могут превосходить выбор шагов процесса, управляемый VL-PRM, (ii) меньшие по размеру VL-PRMs могут соответствовать или даже превосходить более крупные в обнаружении ошибок процесса, (iii) VL-PRMs раскрывают скрытые способности к рассуждению в более мощных архитектурах VLM, (iv) контроль на уровне восприятия приводит к значительному улучшению масштабирования на этапе тестирования, и (v) производительность различных стратегий TTS улучшается на продвинутых наборах данных для математических рассуждений, несмотря на отсутствие обучения VL-PRMs на таких данных. Мы надеемся, что наша работа вдохновит дальнейшие исследования и будет способствовать развитию VLMs.

English

Process Reward Models (PRMs) provide step-level supervision that improves the reliability of reasoning in large language models. While PRMs have been extensively studied in text-based domains, their extension to Vision Language Models (VLMs) remains limited. Existing Vision-Language PRMs (VL-PRMs) rely on Monte Carlo Tree Search (MCTS) for data construction, which can often produce noisy supervision signals and limit generalization across tasks. In this work, we aim to elucidate the design space of VL-PRMs by exploring diverse strategies for dataset construction, training, and test-time scaling. First, we introduce a hybrid data synthesis framework that combines MCTS with judgments from a strong VLM, producing more accurate step-level labels. Second, we propose perception-focused supervision, enabling our PRM to explicitly detect errors at the visual grounding stage of reasoning. Third, we systematically evaluate multiple test-time scaling strategies, showing that our PRMs can reliably guide VLMs toward more accurate solutions. Our experiments covering five diverse multimodal benchmarks (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista, and MathVision) reveal several key insights: (i) VL-PRMs when used as Outcome Reward Models (ORMs) during test-time scaling (TTS) can outperform VL-PRM guided process step selection, (ii) smaller VL-PRMs can match or even surpass larger ones in detecting process errors, (iii) VL-PRMs uncover latent reasoning abilities in stronger VLM backbones, (iv) perception-level supervision leads to significant gains in test-time scaling, and (v) TTS performance of different policies improve on advanced math reasoning datasets despite not training VL-PRMs on such datasets. We hope our work will motivate further research and support the advancement of VLMs.

Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

Аннотация

Support