MM-PRM: Улучшение мультимодального математического рассуждения с помощью масштабируемого пошагового контроля
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
May 19, 2025
Авторы: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao
cs.AI
Аннотация
Хотя мультимодальные большие языковые модели (MLLMs) достигли впечатляющих успехов в понимании визуально-текстовой информации, они по-прежнему испытывают трудности со сложным многошаговым рассуждением, часто выдавая логически противоречивые или частично правильные решения. Ключевое ограничение заключается в отсутствии детального контроля за промежуточными шагами рассуждения. Чтобы решить эту проблему, мы предлагаем MM-PRM — модель вознаграждения процессов, обученную в рамках полностью автоматизированного и масштабируемого подхода. Сначала мы создаем MM-Policy, мощную мультимодальную модель, обученную на разнообразных данных для математического рассуждения. Затем мы формируем MM-K12 — тщательно отобранный набор из 10 000 мультимодальных математических задач с проверяемыми ответами, который служит исходными данными. Используя конвейер на основе метода Монте-Карло для поиска по дереву (MCTS), мы генерируем более 700 тысяч аннотаций на уровне шагов без участия человека. Полученная модель PRM используется для оценки кандидатов на пути рассуждения в рамках подхода Best-of-N и демонстрирует значительные улучшения как на внутридоменных (тестовый набор MM-K12), так и на внешних (OlympiadBench, MathVista и др.) бенчмарках. Дополнительный анализ подтверждает эффективность мягких меток, меньших скоростей обучения и разнообразия путей для оптимизации производительности PRM. MM-PRM показывает, что контроль процессов является мощным инструментом для повышения логической устойчивости мультимодальных систем рассуждения. Мы публикуем все наши коды и данные по адресу https://github.com/ModalMinds/MM-PRM.
English
While Multimodal Large Language Models (MLLMs) have achieved impressive
progress in vision-language understanding, they still struggle with complex
multi-step reasoning, often producing logically inconsistent or partially
correct solutions. A key limitation lies in the lack of fine-grained
supervision over intermediate reasoning steps. To address this, we propose
MM-PRM, a process reward model trained within a fully automated, scalable
framework. We first build MM-Policy, a strong multimodal model trained on
diverse mathematical reasoning data. Then, we construct MM-K12, a curated
dataset of 10,000 multimodal math problems with verifiable answers, which
serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based
pipeline, we generate over 700k step-level annotations without human labeling.
The resulting PRM is used to score candidate reasoning paths in the Best-of-N
inference setup and achieves significant improvements across both in-domain
(MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.)
benchmarks. Further analysis confirms the effectiveness of soft labels, smaller
learning rates, and path diversity in optimizing PRM performance. MM-PRM
demonstrates that process supervision is a powerful tool for enhancing the
logical robustness of multimodal reasoning systems. We release all our codes
and data at https://github.com/ModalMinds/MM-PRM.Summary
AI-Generated Summary