より困難であるほど優れる:難易度対応型GRPOと多面的な問題再構成による数学的推論能力の強化
Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
January 28, 2026
著者: Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu
cs.AI
要旨
検証可能な報酬による強化学習(RLVR)は大規模モデルの数学的推論能力を強化する堅牢なメカニズムを提供する。しかし、既存手法には未成熟な能力を洗練する上で重要な、より困難な問題への体系的な重点の欠如がアルゴリズムとデータの両観点から認められる。アルゴリズム的には、広く用いられているグループ相対方策最適化(GRPO)は、困難な問題ほど方策更新の規模が小さくなる暗黙の不均衡を抱える。データ的には、拡張手法の主流が多様性向上のために問題を言い換えるだけで、本質的な難易度を体系的に高めていない。これらの課題に対処するため、我々は両観点から困難な問題に焦点を当てた二重構造のMathForgeフレームワークを提案する。これは難易度考慮型グループ方策最適化(DGPO)アルゴリズムと多面的問題再構成(MQR)戦略で構成される。具体的には、DGPOは難易度均衡型グループアドバンテージ推定によりGRPOの暗黙的不均衡を是正し、難易度考慮型問題重み付けで困難な問題を優先的に学習する。一方MQRは元の正解を維持しつつ、複数の側面から問題を再構成して難易度を高める。MathForgeは相乗的循環を形成する:MQRがデータフロンティアを拡大し、DGPOが拡張データから効果的に学習する。大規模実験により、MathForgeが様々な数学的推論タスクで既存手法を大幅に上回ることを実証した。コードと拡張データはhttps://github.com/AMAP-ML/MathForgeで公開されている。
English
Reinforcement Learning with Verifiable Rewards (RLVR) offers a robust mechanism for enhancing mathematical reasoning in large models. However, we identify a systematic lack of emphasis on more challenging questions in existing methods from both algorithmic and data perspectives, despite their importance for refining underdeveloped capabilities. Algorithmically, widely used Group Relative Policy Optimization (GRPO) suffers from an implicit imbalance where the magnitude of policy updates is lower for harder questions. Data-wise, augmentation approaches primarily rephrase questions to enhance diversity without systematically increasing intrinsic difficulty. To address these issues, we propose a two-dual MathForge framework to improve mathematical reasoning by targeting harder questions from both perspectives, which comprises a Difficulty-Aware Group Policy Optimization (DGPO) algorithm and a Multi-Aspect Question Reformulation (MQR) strategy. Specifically, DGPO first rectifies the implicit imbalance in GRPO via difficulty-balanced group advantage estimation, and further prioritizes harder questions by difficulty-aware question-level weighting. Meanwhile, MQR reformulates questions across multiple aspects to increase difficulty while maintaining the original gold answer. Overall, MathForge forms a synergistic loop: MQR expands the data frontier, and DGPO effectively learns from the augmented data. Extensive experiments show that MathForge significantly outperforms existing methods on various mathematical reasoning tasks. The code and augmented data are all available at https://github.com/AMAP-ML/MathForge.