ChatPaper.aiChatPaper

Plus c'est dur, mieux c'est : Amélioration du raisonnement mathématique par GRPO adaptatif à la difficulté et reformulation multi-aspects des questions

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

January 28, 2026
papers.authors: Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) offre un mécanisme robuste pour améliorer le raisonnement mathématique dans les grands modèles. Cependant, nous identifions un manque systématique d'accent sur les questions plus difficiles dans les méthodes existantes, tant du point de vue algorithmique que des données, malgré leur importance pour affiner les capacités sous-développées. Sur le plan algorithmique, l'optimisation de politique relative par groupe (GRPO), largement utilisée, souffre d'un déséquilibre implicite où l'amplitude des mises à jour de la politique est plus faible pour les questions difficiles. Du point de vue des données, les approches d'augmentation reformulent principalement les questions pour améliorer la diversité sans augmenter systématiquement la difficulté intrinsèque. Pour résoudre ces problèmes, nous proposons un cadre MathForge à double volet pour améliorer le raisonnement mathématique en ciblant les questions plus difficiles sous ces deux angles, qui comprend un algorithme d'optimisation de politique de groupe sensible à la difficulté (DGPO) et une stratégie de reformulation de questions multi-aspects (MQR). Concrètement, DGPO corrige d'abord le déséquilibre implicite de GRPO via une estimation équilibrée de l'avantage de groupe selon la difficulté, et priorise ensuite les questions difficiles par une pondération au niveau des questions sensible à la difficulté. Parallèlement, MQR reformule les questions sous plusieurs aspects pour augmenter la difficulté tout en conservant la réponse de référence originale. Globalement, MathForge forme une boucle synergique : MQR élargit la frontière des données, et DGPO apprend efficacement des données augmentées. Des expériences approfondies montrent que MathForge surpasse significativement les méthodes existantes sur diverses tâches de raisonnement mathématique. Le code et les données augmentées sont disponibles à l'adresse https://github.com/AMAP-ML/MathForge.
English
Reinforcement Learning with Verifiable Rewards (RLVR) offers a robust mechanism for enhancing mathematical reasoning in large models. However, we identify a systematic lack of emphasis on more challenging questions in existing methods from both algorithmic and data perspectives, despite their importance for refining underdeveloped capabilities. Algorithmically, widely used Group Relative Policy Optimization (GRPO) suffers from an implicit imbalance where the magnitude of policy updates is lower for harder questions. Data-wise, augmentation approaches primarily rephrase questions to enhance diversity without systematically increasing intrinsic difficulty. To address these issues, we propose a two-dual MathForge framework to improve mathematical reasoning by targeting harder questions from both perspectives, which comprises a Difficulty-Aware Group Policy Optimization (DGPO) algorithm and a Multi-Aspect Question Reformulation (MQR) strategy. Specifically, DGPO first rectifies the implicit imbalance in GRPO via difficulty-balanced group advantage estimation, and further prioritizes harder questions by difficulty-aware question-level weighting. Meanwhile, MQR reformulates questions across multiple aspects to increase difficulty while maintaining the original gold answer. Overall, MathForge forms a synergistic loop: MQR expands the data frontier, and DGPO effectively learns from the augmented data. Extensive experiments show that MathForge significantly outperforms existing methods on various mathematical reasoning tasks. The code and augmented data are all available at https://github.com/AMAP-ML/MathForge.
PDF9312January 30, 2026