MM-PRM: Mejorando el Razonamiento Matemático Multimodal con Supervisión Escalable a Nivel de Paso
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
May 19, 2025
Autores: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao
cs.AI
Resumen
Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado avances impresionantes en la comprensión visión-lenguaje, aún enfrentan dificultades con el razonamiento complejo de múltiples pasos, produciendo a menudo soluciones lógicamente inconsistentes o parcialmente correctas. Una limitación clave radica en la falta de supervisión detallada sobre los pasos intermedios del razonamiento. Para abordar esto, proponemos MM-PRM, un modelo de recompensa de proceso entrenado dentro de un marco completamente automatizado y escalable. Primero construimos MM-Policy, un modelo multimodal robusto entrenado con datos diversos de razonamiento matemático. Luego, creamos MM-K12, un conjunto de datos curado de 10,000 problemas matemáticos multimodales con respuestas verificables, que sirve como datos iniciales. Utilizando una canalización basada en Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés), generamos más de 700k anotaciones a nivel de paso sin etiquetado humano. El PRM resultante se utiliza para puntuar trayectorias de razonamiento candidatas en la configuración de inferencia Best-of-N y logra mejoras significativas tanto en el dominio interno (conjunto de prueba de MM-K12) como en dominios externos (OlympiadBench, MathVista, etc.). Un análisis adicional confirma la efectividad de las etiquetas suaves, tasas de aprendizaje más pequeñas y la diversidad de trayectorias en la optimización del rendimiento del PRM. MM-PRM demuestra que la supervisión de proceso es una herramienta poderosa para mejorar la robustez lógica de los sistemas de razonamiento multimodal. Publicamos todos nuestros códigos y datos en https://github.com/ModalMinds/MM-PRM.
English
While Multimodal Large Language Models (MLLMs) have achieved impressive
progress in vision-language understanding, they still struggle with complex
multi-step reasoning, often producing logically inconsistent or partially
correct solutions. A key limitation lies in the lack of fine-grained
supervision over intermediate reasoning steps. To address this, we propose
MM-PRM, a process reward model trained within a fully automated, scalable
framework. We first build MM-Policy, a strong multimodal model trained on
diverse mathematical reasoning data. Then, we construct MM-K12, a curated
dataset of 10,000 multimodal math problems with verifiable answers, which
serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based
pipeline, we generate over 700k step-level annotations without human labeling.
The resulting PRM is used to score candidate reasoning paths in the Best-of-N
inference setup and achieves significant improvements across both in-domain
(MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.)
benchmarks. Further analysis confirms the effectiveness of soft labels, smaller
learning rates, and path diversity in optimizing PRM performance. MM-PRM
demonstrates that process supervision is a powerful tool for enhancing the
logical robustness of multimodal reasoning systems. We release all our codes
and data at https://github.com/ModalMinds/MM-PRM.Summary
AI-Generated Summary