MM-PRM: Mejorando el Razonamiento Matemático Multimodal con Supervisión Escalable a Nivel de Paso

Resumen

Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado avances impresionantes en la comprensión visión-lenguaje, aún enfrentan dificultades con el razonamiento complejo de múltiples pasos, produciendo a menudo soluciones lógicamente inconsistentes o parcialmente correctas. Una limitación clave radica en la falta de supervisión detallada sobre los pasos intermedios del razonamiento. Para abordar esto, proponemos MM-PRM, un modelo de recompensa de proceso entrenado dentro de un marco completamente automatizado y escalable. Primero construimos MM-Policy, un modelo multimodal robusto entrenado con datos diversos de razonamiento matemático. Luego, creamos MM-K12, un conjunto de datos curado de 10,000 problemas matemáticos multimodales con respuestas verificables, que sirve como datos iniciales. Utilizando una canalización basada en Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés), generamos más de 700k anotaciones a nivel de paso sin etiquetado humano. El PRM resultante se utiliza para puntuar trayectorias de razonamiento candidatas en la configuración de inferencia Best-of-N y logra mejoras significativas tanto en el dominio interno (conjunto de prueba de MM-K12) como en dominios externos (OlympiadBench, MathVista, etc.). Un análisis adicional confirma la efectividad de las etiquetas suaves, tasas de aprendizaje más pequeñas y la diversidad de trayectorias en la optimización del rendimiento del PRM. MM-PRM demuestra que la supervisión de proceso es una herramienta poderosa para mejorar la robustez lógica de los sistemas de razonamiento multimodal. Publicamos todos nuestros códigos y datos en https://github.com/ModalMinds/MM-PRM.

English

While Multimodal Large Language Models (MLLMs) have achieved impressive progress in vision-language understanding, they still struggle with complex multi-step reasoning, often producing logically inconsistent or partially correct solutions. A key limitation lies in the lack of fine-grained supervision over intermediate reasoning steps. To address this, we propose MM-PRM, a process reward model trained within a fully automated, scalable framework. We first build MM-Policy, a strong multimodal model trained on diverse mathematical reasoning data. Then, we construct MM-K12, a curated dataset of 10,000 multimodal math problems with verifiable answers, which serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based pipeline, we generate over 700k step-level annotations without human labeling. The resulting PRM is used to score candidate reasoning paths in the Best-of-N inference setup and achieves significant improvements across both in-domain (MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.) benchmarks. Further analysis confirms the effectiveness of soft labels, smaller learning rates, and path diversity in optimizing PRM performance. MM-PRM demonstrates that process supervision is a powerful tool for enhancing the logical robustness of multimodal reasoning systems. We release all our codes and data at https://github.com/ModalMinds/MM-PRM.

MM-PRM: Mejorando el Razonamiento Matemático Multimodal con Supervisión Escalable a Nivel de Paso

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

Resumen

Support