We-Math 2.0: Een veelzijdig MathBook-systeem voor het stimuleren van visueel wiskundig redeneren
We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
August 14, 2025
Auteurs: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben indrukwekkende capaciteiten getoond in diverse taken, maar worstelen nog steeds met complex wiskundig redeneren. Bestaand onderzoek richt zich voornamelijk op datasetconstructie en methode-optimalisatie, waarbij vaak twee cruciale aspecten over het hoofd worden gezien: een uitgebreide kennisgedreven ontwerp en modelgecentreerde dataruimtemodellering. In dit artikel introduceren we We-Math 2.0, een geïntegreerd systeem dat een gestructureerd wiskundig kennissysteem, modelgecentreerde dataruimtemodellering en een op reinforcement learning (RL) gebaseerd trainingsparadigma combineert om de wiskundige redeneervaardigheden van MLLMs uitgebreid te verbeteren. De belangrijkste bijdragen van We-Math 2.0 zijn vierledig: (1) MathBook Kennissysteem: We construeren een vijf niveaus tellend hiërarchisch systeem dat 491 kennispunten en 1.819 fundamentele principes omvat. (2) MathBook-Standard & Pro: We ontwikkelen MathBook-Standard, een dataset die brede conceptuele dekking en flexibiliteit waarborgt door middel van dubbele uitbreiding. Daarnaast definiëren we een driedimensionale moeilijkheidsruimte en genereren we 7 progressieve varianten per probleem om MathBook-Pro te bouwen, een uitdagende dataset voor robuuste training. (3) MathBook-RL: We stellen een tweefasen RL-raamwerk voor bestaande uit: (i) Cold-Start Fine-tuning, dat het model afstemt op kennisgerichte keten-van-gedachten-redenering; en (ii) Progressieve Afstemming RL, dat gebruikmaakt van gemiddelde-beloning-leren en dynamische datascheduling om progressieve afstemming over moeilijkheidsniveaus te bereiken. (4) MathBookEval: We introduceren een uitgebreide benchmark die alle 491 kennispunten dekt met diverse redeneerstapdistributies. Experimentele resultaten tonen aan dat MathBook-RL concurrerend presteert met bestaande baseline-modellen op vier veelgebruikte benchmarks en sterke resultaten behaalt op MathBookEval, wat wijst op veelbelovende generalisatie in wiskundig redeneren.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive
capabilities across various tasks, but still struggle with complex mathematical
reasoning. Existing research primarily focuses on dataset construction and
method optimization, often overlooking two critical aspects: comprehensive
knowledge-driven design and model-centric data space modeling. In this paper,
we introduce We-Math 2.0, a unified system that integrates a structured
mathematical knowledge system, model-centric data space modeling, and a
reinforcement learning (RL)-based training paradigm to comprehensively enhance
the mathematical reasoning abilities of MLLMs. The key contributions of We-Math
2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level
hierarchical system encompassing 491 knowledge points and 1,819 fundamental
principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a
dataset that ensures broad conceptual coverage and flexibility through dual
expansion. Additionally, we define a three-dimensional difficulty space and
generate 7 progressive variants per problem to build MathBook-Pro, a
challenging dataset for robust training. (3) MathBook-RL: We propose a
two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the
model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive
Alignment RL, leveraging average-reward learning and dynamic data scheduling to
achieve progressive alignment across difficulty levels. (4) MathBookEval: We
introduce a comprehensive benchmark covering all 491 knowledge points with
diverse reasoning step distributions. Experimental results show that
MathBook-RL performs competitively with existing baselines on four widely-used
benchmarks and achieves strong results on MathBookEval, suggesting promising
generalization in mathematical reasoning.