ChatPaper.aiChatPaper

MM-PRM : Amélioration du raisonnement mathématique multimodal grâce à une supervision évolutive au niveau des étapes

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

May 19, 2025
Auteurs: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao
cs.AI

Résumé

Bien que les modèles de langage multimodaux de grande taille (MLLMs) aient réalisé des progrès impressionnants dans la compréhension vision-langage, ils peinent encore avec les raisonnements complexes en plusieurs étapes, produisant souvent des solutions logiquement incohérentes ou partiellement correctes. Une limitation majeure réside dans l'absence de supervision fine des étapes intermédiaires du raisonnement. Pour y remédier, nous proposons MM-PRM, un modèle de récompense de processus entraîné dans un cadre entièrement automatisé et évolutif. Nous construisons d'abord MM-Policy, un modèle multimodal robuste entraîné sur des données variées de raisonnement mathématique. Ensuite, nous créons MM-K12, un ensemble de données soigneusement sélectionné de 10 000 problèmes mathématiques multimodaux avec des réponses vérifiables, qui sert de données de départ. En exploitant un pipeline basé sur la recherche arborescente Monte Carlo (MCTS), nous générons plus de 700 000 annotations au niveau des étapes sans étiquetage humain. Le PRM résultant est utilisé pour évaluer les chemins de raisonnement candidats dans le cadre d'inférence Best-of-N et obtient des améliorations significatives à la fois sur des benchmarks en domaine (ensemble de test MM-K12) et hors domaine (OlympiadBench, MathVista, etc.). Une analyse approfondie confirme l'efficacité des étiquettes douces, des taux d'apprentissage plus faibles et de la diversité des chemins pour optimiser les performances du PRM. MM-PRM démontre que la supervision de processus est un outil puissant pour renforcer la robustesse logique des systèmes de raisonnement multimodaux. Nous publions tous nos codes et données sur https://github.com/ModalMinds/MM-PRM.
English
While Multimodal Large Language Models (MLLMs) have achieved impressive progress in vision-language understanding, they still struggle with complex multi-step reasoning, often producing logically inconsistent or partially correct solutions. A key limitation lies in the lack of fine-grained supervision over intermediate reasoning steps. To address this, we propose MM-PRM, a process reward model trained within a fully automated, scalable framework. We first build MM-Policy, a strong multimodal model trained on diverse mathematical reasoning data. Then, we construct MM-K12, a curated dataset of 10,000 multimodal math problems with verifiable answers, which serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based pipeline, we generate over 700k step-level annotations without human labeling. The resulting PRM is used to score candidate reasoning paths in the Best-of-N inference setup and achieves significant improvements across both in-domain (MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.) benchmarks. Further analysis confirms the effectiveness of soft labels, smaller learning rates, and path diversity in optimizing PRM performance. MM-PRM demonstrates that process supervision is a powerful tool for enhancing the logical robustness of multimodal reasoning systems. We release all our codes and data at https://github.com/ModalMinds/MM-PRM.

Summary

AI-Generated Summary

PDF201May 20, 2025