We-Math 2.0: Un Sistema MathBook Versatile per Incentivare il Ragionamento Matematico Visivo
We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
August 14, 2025
Autori: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità impressionanti in vari compiti, ma continuano a lottare con il ragionamento matematico complesso. La ricerca esistente si concentra principalmente sulla costruzione di dataset e sull'ottimizzazione dei metodi, spesso trascurando due aspetti critici: una progettazione guidata dalla conoscenza completa e una modellazione dello spazio dati centrata sul modello. In questo articolo, introduciamo We-Math 2.0, un sistema unificato che integra un sistema strutturato di conoscenza matematica, una modellazione dello spazio dati centrata sul modello e un paradigma di addestramento basato sull'apprendimento per rinforzo (RL) per migliorare in modo completo le capacità di ragionamento matematico degli MLLMs. I contributi chiave di We-Math 2.0 sono quattro: (1) Sistema di Conoscenza MathBook: Costruiamo un sistema gerarchico a cinque livelli che comprende 491 punti di conoscenza e 1.819 principi fondamentali. (2) MathBook-Standard & Pro: Sviluppiamo MathBook-Standard, un dataset che garantisce una copertura concettuale ampia e flessibilità attraverso una doppia espansione. Inoltre, definiamo uno spazio di difficoltà tridimensionale e generiamo 7 varianti progressive per problema per costruire MathBook-Pro, un dataset impegnativo per un addestramento robusto. (3) MathBook-RL: Proponiamo un framework RL in due fasi composto da: (i) Fine-tuning a Freddo, che allinea il modello con un ragionamento a catena di pensiero orientato alla conoscenza; e (ii) RL di Allineamento Progressivo, sfruttando l'apprendimento a ricompensa media e la pianificazione dinamica dei dati per raggiungere un allineamento progressivo tra i livelli di difficoltà. (4) MathBookEval: Introduciamo un benchmark completo che copre tutti i 491 punti di conoscenza con distribuzioni diverse di passaggi di ragionamento. I risultati sperimentali mostrano che MathBook-RL compete efficacemente con i baselines esistenti su quattro benchmark ampiamente utilizzati e ottiene risultati solidi su MathBookEval, suggerendo una promettente generalizzazione nel ragionamento matematico.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive
capabilities across various tasks, but still struggle with complex mathematical
reasoning. Existing research primarily focuses on dataset construction and
method optimization, often overlooking two critical aspects: comprehensive
knowledge-driven design and model-centric data space modeling. In this paper,
we introduce We-Math 2.0, a unified system that integrates a structured
mathematical knowledge system, model-centric data space modeling, and a
reinforcement learning (RL)-based training paradigm to comprehensively enhance
the mathematical reasoning abilities of MLLMs. The key contributions of We-Math
2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level
hierarchical system encompassing 491 knowledge points and 1,819 fundamental
principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a
dataset that ensures broad conceptual coverage and flexibility through dual
expansion. Additionally, we define a three-dimensional difficulty space and
generate 7 progressive variants per problem to build MathBook-Pro, a
challenging dataset for robust training. (3) MathBook-RL: We propose a
two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the
model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive
Alignment RL, leveraging average-reward learning and dynamic data scheduling to
achieve progressive alignment across difficulty levels. (4) MathBookEval: We
introduce a comprehensive benchmark covering all 491 knowledge points with
diverse reasoning step distributions. Experimental results show that
MathBook-RL performs competitively with existing baselines on four widely-used
benchmarks and achieves strong results on MathBookEval, suggesting promising
generalization in mathematical reasoning.