ChatPaper.aiChatPaper

We-Math 2.0: Um Sistema Versátil de MathBook para Incentivar o Raciocínio Matemático Visual

We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

August 14, 2025
Autores: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes em diversas tarefas, mas ainda enfrentam dificuldades com raciocínio matemático complexo. As pesquisas existentes concentram-se principalmente na construção de conjuntos de dados e na otimização de métodos, muitas vezes negligenciando dois aspectos críticos: o design abrangente baseado em conhecimento e a modelagem do espaço de dados centrada no modelo. Neste artigo, apresentamos o We-Math 2.0, um sistema unificado que integra um sistema estruturado de conhecimento matemático, modelagem do espaço de dados centrada no modelo e um paradigma de treinamento baseado em aprendizado por reforço (RL) para aprimorar de forma abrangente as habilidades de raciocínio matemático dos MLLMs. As principais contribuições do We-Math 2.0 são quatro: (1) Sistema de Conhecimento MathBook: Construímos um sistema hierárquico de cinco níveis que abrange 491 pontos de conhecimento e 1.819 princípios fundamentais. (2) MathBook-Standard & Pro: Desenvolvemos o MathBook-Standard, um conjunto de dados que garante ampla cobertura conceitual e flexibilidade por meio de expansão dupla. Além disso, definimos um espaço de dificuldade tridimensional e geramos 7 variantes progressivas por problema para construir o MathBook-Pro, um conjunto de dados desafiador para treinamento robusto. (3) MathBook-RL: Propomos um framework de RL em duas etapas composto por: (i) Fine-tuning de Inicialização a Frio, que alinha o modelo com o raciocínio em cadeia de pensamento orientado ao conhecimento; e (ii) RL de Alinhamento Progressivo, aproveitando o aprendizado de recompensa média e o agendamento dinâmico de dados para alcançar alinhamento progressivo em níveis de dificuldade. (4) MathBookEval: Introduzimos um benchmark abrangente que cobre todos os 491 pontos de conhecimento com distribuições diversas de etapas de raciocínio. Os resultados experimentais mostram que o MathBook-RL tem desempenho competitivo com as linhas de base existentes em quatro benchmarks amplamente utilizados e alcança resultados fortes no MathBookEval, sugerindo uma generalização promissora no raciocínio matemático.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various tasks, but still struggle with complex mathematical reasoning. Existing research primarily focuses on dataset construction and method optimization, often overlooking two critical aspects: comprehensive knowledge-driven design and model-centric data space modeling. In this paper, we introduce We-Math 2.0, a unified system that integrates a structured mathematical knowledge system, model-centric data space modeling, and a reinforcement learning (RL)-based training paradigm to comprehensively enhance the mathematical reasoning abilities of MLLMs. The key contributions of We-Math 2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level hierarchical system encompassing 491 knowledge points and 1,819 fundamental principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a dataset that ensures broad conceptual coverage and flexibility through dual expansion. Additionally, we define a three-dimensional difficulty space and generate 7 progressive variants per problem to build MathBook-Pro, a challenging dataset for robust training. (3) MathBook-RL: We propose a two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive Alignment RL, leveraging average-reward learning and dynamic data scheduling to achieve progressive alignment across difficulty levels. (4) MathBookEval: We introduce a comprehensive benchmark covering all 491 knowledge points with diverse reasoning step distributions. Experimental results show that MathBook-RL performs competitively with existing baselines on four widely-used benchmarks and achieves strong results on MathBookEval, suggesting promising generalization in mathematical reasoning.
PDF1438August 15, 2025