We-Math 2.0: Ein vielseitiges MathBook-System zur Förderung visuellen mathematischen Denkens

papers.abstract

Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten in verschiedenen Aufgaben gezeigt, kämpfen jedoch weiterhin mit komplexem mathematischem Denken. Bisherige Forschung konzentriert sich hauptsächlich auf die Konstruktion von Datensätzen und die Optimierung von Methoden, wobei zwei kritische Aspekte oft übersehen werden: umfassendes wissensbasiertes Design und modellzentrierte Datenraummodellierung. In diesem Artikel stellen wir We-Math 2.0 vor, ein einheitliches System, das ein strukturiertes mathematisches Wissenssystem, modellzentrierte Datenraummodellierung und ein auf Reinforcement Learning (RL) basierendes Trainingsparadigma integriert, um die mathematischen Denkfähigkeiten von MLLMs umfassend zu verbessern. Die wesentlichen Beiträge von We-Math 2.0 sind vierfach: (1) MathBook-Wissenssystem: Wir konstruieren ein fünfstufiges hierarchisches System, das 491 Wissenspunkte und 1.819 grundlegende Prinzipien umfasst. (2) MathBook-Standard & Pro: Wir entwickeln MathBook-Standard, einen Datensatz, der durch duale Erweiterung breite konzeptionelle Abdeckung und Flexibilität sicherstellt. Zusätzlich definieren wir einen dreidimensionalen Schwierigkeitsraum und generieren 7 progressive Varianten pro Problem, um MathBook-Pro, einen anspruchsvollen Datensatz für robustes Training, zu erstellen. (3) MathBook-RL: Wir schlagen ein zweistufiges RL-Framework vor, das besteht aus: (i) Cold-Start Fine-Tuning, das das Modell mit wissensorientiertem Chain-of-Thought-Denken abstimmt; und (ii) Progressive Alignment RL, das durchschnittliche Belohnungslernen und dynamische Datenplanung nutzt, um eine progressive Abstimmung über Schwierigkeitsstufen hinweg zu erreichen. (4) MathBookEval: Wir führen einen umfassenden Benchmark ein, der alle 491 Wissenspunkte mit diversen Verteilungen von Denkschritten abdeckt. Experimentelle Ergebnisse zeigen, dass MathBook-RL auf vier weit verbreiteten Benchmarks wettbewerbsfähig mit bestehenden Baselines abschneidet und auf MathBookEval starke Ergebnisse erzielt, was auf vielversprechende Generalisierung im mathematischen Denken hindeutet.

English

Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various tasks, but still struggle with complex mathematical reasoning. Existing research primarily focuses on dataset construction and method optimization, often overlooking two critical aspects: comprehensive knowledge-driven design and model-centric data space modeling. In this paper, we introduce We-Math 2.0, a unified system that integrates a structured mathematical knowledge system, model-centric data space modeling, and a reinforcement learning (RL)-based training paradigm to comprehensively enhance the mathematical reasoning abilities of MLLMs. The key contributions of We-Math 2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level hierarchical system encompassing 491 knowledge points and 1,819 fundamental principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a dataset that ensures broad conceptual coverage and flexibility through dual expansion. Additionally, we define a three-dimensional difficulty space and generate 7 progressive variants per problem to build MathBook-Pro, a challenging dataset for robust training. (3) MathBook-RL: We propose a two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive Alignment RL, leveraging average-reward learning and dynamic data scheduling to achieve progressive alignment across difficulty levels. (4) MathBookEval: We introduce a comprehensive benchmark covering all 491 knowledge points with diverse reasoning step distributions. Experimental results show that MathBook-RL performs competitively with existing baselines on four widely-used benchmarks and achieves strong results on MathBookEval, suggesting promising generalization in mathematical reasoning.

We-Math 2.0: Ein vielseitiges MathBook-System zur Förderung visuellen mathematischen Denkens

We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

papers.abstract

Support