We-Math 2.0: 시각적 수학적 추론을 유도하기 위한 다목적 MathBook 시스템
We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
August 14, 2025
저자: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 다양한 작업에서 인상적인 능력을 보여주었지만, 여전히 복잡한 수학적 추론에는 어려움을 겪고 있습니다. 기존 연구는 주로 데이터셋 구축과 방법론 최적화에 초점을 맞추며, 종종 두 가지 중요한 측면인 포괄적인 지식 기반 설계와 모델 중심 데이터 공간 모델링을 간과해 왔습니다. 본 논문에서는 We-Math 2.0을 소개합니다. 이는 구조화된 수학적 지식 시스템, 모델 중심 데이터 공간 모델링, 그리고 강화 학습(RL) 기반 훈련 패러다임을 통합하여 MLLMs의 수학적 추론 능력을 종합적으로 향상시키는 통합 시스템입니다. We-Math 2.0의 주요 기여는 다음과 같습니다: (1) MathBook 지식 시스템: 491개의 지식 포인트와 1,819개의 기본 원리를 포함하는 5단계 계층적 시스템을 구축했습니다. (2) MathBook-Standard & Pro: 이중 확장을 통해 광범위한 개념적 커버리지와 유연성을 보장하는 MathBook-Standard 데이터셋을 개발했습니다. 또한, 3차원 난이도 공간을 정의하고 각 문제에 대해 7개의 점진적 변형을 생성하여 강력한 훈련을 위한 도전적인 데이터셋인 MathBook-Pro를 구축했습니다. (3) MathBook-RL: 두 단계의 RL 프레임워크를 제안합니다: (i) 콜드 스타트 미세 조정은 모델을 지식 중심의 사고 연쇄 추론과 일치시키고, (ii) 점진적 정렬 RL은 평균 보상 학습과 동적 데이터 스케줄링을 활용하여 난이도 수준 간 점진적 정렬을 달성합니다. (4) MathBookEval: 491개의 모든 지식 포인트를 포괄하고 다양한 추론 단계 분포를 포함하는 종합적인 벤치마크를 도입했습니다. 실험 결과, MathBook-RL은 널리 사용되는 4개의 벤치마크에서 기존 베이스라인과 경쟁력 있는 성능을 보였으며, MathBookEval에서도 강력한 결과를 달성하여 수학적 추론에서 유망한 일반화 능력을 보여주었습니다.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive
capabilities across various tasks, but still struggle with complex mathematical
reasoning. Existing research primarily focuses on dataset construction and
method optimization, often overlooking two critical aspects: comprehensive
knowledge-driven design and model-centric data space modeling. In this paper,
we introduce We-Math 2.0, a unified system that integrates a structured
mathematical knowledge system, model-centric data space modeling, and a
reinforcement learning (RL)-based training paradigm to comprehensively enhance
the mathematical reasoning abilities of MLLMs. The key contributions of We-Math
2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level
hierarchical system encompassing 491 knowledge points and 1,819 fundamental
principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a
dataset that ensures broad conceptual coverage and flexibility through dual
expansion. Additionally, we define a three-dimensional difficulty space and
generate 7 progressive variants per problem to build MathBook-Pro, a
challenging dataset for robust training. (3) MathBook-RL: We propose a
two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the
model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive
Alignment RL, leveraging average-reward learning and dynamic data scheduling to
achieve progressive alignment across difficulty levels. (4) MathBookEval: We
introduce a comprehensive benchmark covering all 491 knowledge points with
diverse reasoning step distributions. Experimental results show that
MathBook-RL performs competitively with existing baselines on four widely-used
benchmarks and achieves strong results on MathBookEval, suggesting promising
generalization in mathematical reasoning.