ChatPaper.aiChatPaper

We-Math 2.0 : Un système polyvalent de MathBook pour encourager le raisonnement mathématique visuel

We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

August 14, 2025
papers.authors: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang
cs.AI

papers.abstract

Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités impressionnantes dans diverses tâches, mais peinent encore avec le raisonnement mathématique complexe. Les recherches existantes se concentrent principalement sur la construction de jeux de données et l'optimisation des méthodes, négligeant souvent deux aspects critiques : une conception axée sur les connaissances et une modélisation centrée sur l'espace de données du modèle. Dans cet article, nous présentons We-Math 2.0, un système unifié qui intègre un système structuré de connaissances mathématiques, une modélisation centrée sur l'espace de données du modèle, et un paradigme d'entraînement basé sur l'apprentissage par renforcement (RL) pour améliorer de manière exhaustive les capacités de raisonnement mathématique des MLLMs. Les contributions clés de We-Math 2.0 sont quadruples : (1) Système de connaissances MathBook : Nous construisons un système hiérarchique à cinq niveaux englobant 491 points de connaissance et 1 819 principes fondamentaux. (2) MathBook-Standard & Pro : Nous développons MathBook-Standard, un jeu de données qui assure une couverture conceptuelle large et une flexibilité grâce à une double expansion. De plus, nous définissons un espace de difficulté tridimensionnel et générons 7 variantes progressives par problème pour construire MathBook-Pro, un jeu de données exigeant pour un entraînement robuste. (3) MathBook-RL : Nous proposons un cadre RL en deux étapes comprenant : (i) un Fine-tuning à froid, qui aligne le modèle sur un raisonnement en chaîne de pensée orienté par les connaissances ; et (ii) un RL d'alignement progressif, exploitant l'apprentissage par récompense moyenne et une planification dynamique des données pour atteindre un alignement progressif à travers les niveaux de difficulté. (4) MathBookEval : Nous introduisons un benchmark complet couvrant les 491 points de connaissance avec des distributions variées d'étapes de raisonnement. Les résultats expérimentaux montrent que MathBook-RL rivalise avec les baselines existantes sur quatre benchmarks largement utilisés et obtient des résultats solides sur MathBookEval, suggérant une généralisation prometteuse en raisonnement mathématique.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various tasks, but still struggle with complex mathematical reasoning. Existing research primarily focuses on dataset construction and method optimization, often overlooking two critical aspects: comprehensive knowledge-driven design and model-centric data space modeling. In this paper, we introduce We-Math 2.0, a unified system that integrates a structured mathematical knowledge system, model-centric data space modeling, and a reinforcement learning (RL)-based training paradigm to comprehensively enhance the mathematical reasoning abilities of MLLMs. The key contributions of We-Math 2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level hierarchical system encompassing 491 knowledge points and 1,819 fundamental principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a dataset that ensures broad conceptual coverage and flexibility through dual expansion. Additionally, we define a three-dimensional difficulty space and generate 7 progressive variants per problem to build MathBook-Pro, a challenging dataset for robust training. (3) MathBook-RL: We propose a two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive Alignment RL, leveraging average-reward learning and dynamic data scheduling to achieve progressive alignment across difficulty levels. (4) MathBookEval: We introduce a comprehensive benchmark covering all 491 knowledge points with diverse reasoning step distributions. Experimental results show that MathBook-RL performs competitively with existing baselines on four widely-used benchmarks and achieves strong results on MathBookEval, suggesting promising generalization in mathematical reasoning.
PDF924August 15, 2025