MM-PRM: Potenziamento del Ragionamento Matematico Multimodale con Supervisione Scalabile a Livello di Passo
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
May 19, 2025
Autori: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao
cs.AI
Abstract
Sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLMs) abbiano ottenuto progressi impressionanti nella comprensione visivo-linguistica, continuano a lottare con ragionamenti complessi a più passaggi, spesso producendo soluzioni logicamente inconsistenti o parzialmente corrette. Una limitazione chiave risiede nella mancanza di supervisione fine-granularità sui passaggi intermedi del ragionamento. Per affrontare questo problema, proponiamo MM-PRM, un modello di ricompensa del processo addestrato all'interno di un framework completamente automatizzato e scalabile. Inizialmente costruiamo MM-Policy, un forte modello multimodale addestrato su dati diversificati di ragionamento matematico. Successivamente, creiamo MM-K12, un dataset curato di 10.000 problemi matematici multimodali con risposte verificabili, che funge da dati di partenza. Sfruttando una pipeline basata su Monte Carlo Tree Search (MCTS), generiamo oltre 700k annotazioni a livello di passaggio senza etichettatura umana. Il PRM risultante viene utilizzato per valutare i percorsi di ragionamento candidati nella configurazione di inferenza Best-of-N e ottiene miglioramenti significativi sia nei benchmark in-dominio (set di test MM-K12) che out-of-dominio (OlympiadBench, MathVista, ecc.). Un'ulteriore analisi conferma l'efficacia delle etichette soft, dei tassi di apprendimento più piccoli e della diversità dei percorsi nell'ottimizzazione delle prestazioni del PRM. MM-PRM dimostra che la supervisione del processo è uno strumento potente per migliorare la robustezza logica dei sistemi di ragionamento multimodale. Rilasciamo tutti i nostri codici e dati su https://github.com/ModalMinds/MM-PRM.
English
While Multimodal Large Language Models (MLLMs) have achieved impressive
progress in vision-language understanding, they still struggle with complex
multi-step reasoning, often producing logically inconsistent or partially
correct solutions. A key limitation lies in the lack of fine-grained
supervision over intermediate reasoning steps. To address this, we propose
MM-PRM, a process reward model trained within a fully automated, scalable
framework. We first build MM-Policy, a strong multimodal model trained on
diverse mathematical reasoning data. Then, we construct MM-K12, a curated
dataset of 10,000 multimodal math problems with verifiable answers, which
serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based
pipeline, we generate over 700k step-level annotations without human labeling.
The resulting PRM is used to score candidate reasoning paths in the Best-of-N
inference setup and achieves significant improvements across both in-domain
(MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.)
benchmarks. Further analysis confirms the effectiveness of soft labels, smaller
learning rates, and path diversity in optimizing PRM performance. MM-PRM
demonstrates that process supervision is a powerful tool for enhancing the
logical robustness of multimodal reasoning systems. We release all our codes
and data at https://github.com/ModalMinds/MM-PRM.