MM-PRM : Amélioration du raisonnement mathématique multimodal grâce à une supervision évolutive au niveau des étapes
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
May 19, 2025
Auteurs: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao
cs.AI
Résumé
Bien que les modèles de langage multimodaux de grande taille (MLLMs) aient réalisé des progrès impressionnants dans la compréhension vision-langage, ils peinent encore avec les raisonnements complexes en plusieurs étapes, produisant souvent des solutions logiquement incohérentes ou partiellement correctes. Une limitation majeure réside dans l'absence de supervision fine des étapes intermédiaires du raisonnement. Pour y remédier, nous proposons MM-PRM, un modèle de récompense de processus entraîné dans un cadre entièrement automatisé et évolutif. Nous construisons d'abord MM-Policy, un modèle multimodal robuste entraîné sur des données variées de raisonnement mathématique. Ensuite, nous créons MM-K12, un ensemble de données soigneusement sélectionné de 10 000 problèmes mathématiques multimodaux avec des réponses vérifiables, qui sert de données de départ. En exploitant un pipeline basé sur la recherche arborescente Monte Carlo (MCTS), nous générons plus de 700 000 annotations au niveau des étapes sans étiquetage humain. Le PRM résultant est utilisé pour évaluer les chemins de raisonnement candidats dans le cadre d'inférence Best-of-N et obtient des améliorations significatives à la fois sur des benchmarks en domaine (ensemble de test MM-K12) et hors domaine (OlympiadBench, MathVista, etc.). Une analyse approfondie confirme l'efficacité des étiquettes douces, des taux d'apprentissage plus faibles et de la diversité des chemins pour optimiser les performances du PRM. MM-PRM démontre que la supervision de processus est un outil puissant pour renforcer la robustesse logique des systèmes de raisonnement multimodaux. Nous publions tous nos codes et données sur https://github.com/ModalMinds/MM-PRM.
English
While Multimodal Large Language Models (MLLMs) have achieved impressive
progress in vision-language understanding, they still struggle with complex
multi-step reasoning, often producing logically inconsistent or partially
correct solutions. A key limitation lies in the lack of fine-grained
supervision over intermediate reasoning steps. To address this, we propose
MM-PRM, a process reward model trained within a fully automated, scalable
framework. We first build MM-Policy, a strong multimodal model trained on
diverse mathematical reasoning data. Then, we construct MM-K12, a curated
dataset of 10,000 multimodal math problems with verifiable answers, which
serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based
pipeline, we generate over 700k step-level annotations without human labeling.
The resulting PRM is used to score candidate reasoning paths in the Best-of-N
inference setup and achieves significant improvements across both in-domain
(MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.)
benchmarks. Further analysis confirms the effectiveness of soft labels, smaller
learning rates, and path diversity in optimizing PRM performance. MM-PRM
demonstrates that process supervision is a powerful tool for enhancing the
logical robustness of multimodal reasoning systems. We release all our codes
and data at https://github.com/ModalMinds/MM-PRM.Summary
AI-Generated Summary