We-Math 2.0: Un sistema versátil de MathBook para incentivar el razonamiento matemático visual
We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
August 14, 2025
Autores: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en diversas tareas, pero aún enfrentan dificultades con el razonamiento matemático complejo. La investigación existente se centra principalmente en la construcción de conjuntos de datos y la optimización de métodos, a menudo pasando por alto dos aspectos críticos: el diseño integral basado en el conocimiento y el modelado del espacio de datos centrado en el modelo. En este artículo, presentamos We-Math 2.0, un sistema unificado que integra un sistema estructurado de conocimiento matemático, el modelado del espacio de datos centrado en el modelo y un paradigma de entrenamiento basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar de manera integral las habilidades de razonamiento matemático de los MLLMs. Las contribuciones clave de We-Math 2.0 son cuatro: (1) Sistema de Conocimiento MathBook: Construimos un sistema jerárquico de cinco niveles que abarca 491 puntos de conocimiento y 1,819 principios fundamentales. (2) MathBook-Standard & Pro: Desarrollamos MathBook-Standard, un conjunto de datos que garantiza una amplia cobertura conceptual y flexibilidad mediante una expansión dual. Además, definimos un espacio de dificultad tridimensional y generamos 7 variantes progresivas por problema para construir MathBook-Pro, un conjunto de datos desafiante para un entrenamiento robusto. (3) MathBook-RL: Proponemos un marco de RL de dos etapas que comprende: (i) Ajuste Fino de Arranque en Frío, que alinea el modelo con el razonamiento en cadena de pensamiento orientado al conocimiento; y (ii) RL de Alineación Progresiva, que aprovecha el aprendizaje de recompensa promedio y la programación dinámica de datos para lograr una alineación progresiva en los niveles de dificultad. (4) MathBookEval: Introducimos un punto de referencia integral que cubre los 491 puntos de conocimiento con distribuciones diversas de pasos de razonamiento. Los resultados experimentales muestran que MathBook-RL compite favorablemente con las líneas base existentes en cuatro puntos de referencia ampliamente utilizados y obtiene resultados sólidos en MathBookEval, sugiriendo una prometedora generalización en el razonamiento matemático.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive
capabilities across various tasks, but still struggle with complex mathematical
reasoning. Existing research primarily focuses on dataset construction and
method optimization, often overlooking two critical aspects: comprehensive
knowledge-driven design and model-centric data space modeling. In this paper,
we introduce We-Math 2.0, a unified system that integrates a structured
mathematical knowledge system, model-centric data space modeling, and a
reinforcement learning (RL)-based training paradigm to comprehensively enhance
the mathematical reasoning abilities of MLLMs. The key contributions of We-Math
2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level
hierarchical system encompassing 491 knowledge points and 1,819 fundamental
principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a
dataset that ensures broad conceptual coverage and flexibility through dual
expansion. Additionally, we define a three-dimensional difficulty space and
generate 7 progressive variants per problem to build MathBook-Pro, a
challenging dataset for robust training. (3) MathBook-RL: We propose a
two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the
model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive
Alignment RL, leveraging average-reward learning and dynamic data scheduling to
achieve progressive alignment across difficulty levels. (4) MathBookEval: We
introduce a comprehensive benchmark covering all 491 knowledge points with
diverse reasoning step distributions. Experimental results show that
MathBook-RL performs competitively with existing baselines on four widely-used
benchmarks and achieves strong results on MathBookEval, suggesting promising
generalization in mathematical reasoning.