ChatPaper.aiChatPaper

We-Math 2.0: Универсальная система MathBook для стимулирования визуального математического мышления

We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

August 14, 2025
Авторы: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие способности в решении различных задач, но по-прежнему испытывают трудности со сложными математическими рассуждениями. Существующие исследования в основном сосредоточены на создании наборов данных и оптимизации методов, часто упуская из виду два критических аспекта: всесторонний дизайн, основанный на знаниях, и моделирование пространства данных с ориентацией на модель. В данной статье мы представляем We-Math 2.0 — унифицированную систему, которая интегрирует структурированную систему математических знаний, моделирование пространства данных с ориентацией на модель и парадигму обучения с подкреплением (RL) для всестороннего улучшения способностей MLLM к математическим рассуждениям. Ключевые вклады We-Math 2.0 заключаются в следующем: (1) Система знаний MathBook: мы создаем пятиуровневую иерархическую систему, охватывающую 491 точку знаний и 1819 фундаментальных принципов. (2) MathBook-Standard & Pro: мы разрабатываем MathBook-Standard — набор данных, который обеспечивает широкое концептуальное покрытие и гибкость за счет двойного расширения. Кроме того, мы определяем трехмерное пространство сложности и генерируем 7 прогрессивных вариантов для каждой задачи, чтобы создать MathBook-Pro — сложный набор данных для устойчивого обучения. (3) MathBook-RL: мы предлагаем двухэтапную RL-структуру, включающую: (i) тонкую настройку на этапе "холодного старта", которая согласует модель с цепочкой рассуждений, ориентированной на знания; и (ii) прогрессивное согласование RL, использующее обучение на основе среднего вознаграждения и динамическое планирование данных для достижения прогрессивного согласования на разных уровнях сложности. (4) MathBookEval: мы представляем всеобъемлющий бенчмарк, охватывающий все 491 точку знаний с разнообразными распределениями шагов рассуждений. Экспериментальные результаты показывают, что MathBook-RL конкурирует с существующими базовыми моделями на четырех широко используемых бенчмарках и демонстрирует сильные результаты на MathBookEval, что указывает на перспективную обобщаемость в математических рассуждениях.
English
Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various tasks, but still struggle with complex mathematical reasoning. Existing research primarily focuses on dataset construction and method optimization, often overlooking two critical aspects: comprehensive knowledge-driven design and model-centric data space modeling. In this paper, we introduce We-Math 2.0, a unified system that integrates a structured mathematical knowledge system, model-centric data space modeling, and a reinforcement learning (RL)-based training paradigm to comprehensively enhance the mathematical reasoning abilities of MLLMs. The key contributions of We-Math 2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level hierarchical system encompassing 491 knowledge points and 1,819 fundamental principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a dataset that ensures broad conceptual coverage and flexibility through dual expansion. Additionally, we define a three-dimensional difficulty space and generate 7 progressive variants per problem to build MathBook-Pro, a challenging dataset for robust training. (3) MathBook-RL: We propose a two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive Alignment RL, leveraging average-reward learning and dynamic data scheduling to achieve progressive alignment across difficulty levels. (4) MathBookEval: We introduce a comprehensive benchmark covering all 491 knowledge points with diverse reasoning step distributions. Experimental results show that MathBook-RL performs competitively with existing baselines on four widely-used benchmarks and achieves strong results on MathBookEval, suggesting promising generalization in mathematical reasoning.
PDF924August 15, 2025