Moeilijker is Beter: Wiskundig Redeneren Verbeteren via Moeilijkheidsbewuste GRPO en Multi-Aspect Vraagherformulering

Samenvatting

Versterkend Leren met Verifieerbare Beloningen (RLVR) biedt een robuust mechanisme om wiskundig redeneren in grote modellen te verbeteren. Wij constateren echter een systematisch gebrek aan aandacht voor uitdagendere vraagstukken in bestaande methoden, zowel vanuit algoritmisch als data-perspectief, ondanks het belang ervan voor het verfijnen van onderontwikkelde capaciteiten. Algoritmisch lijdt het veelgebruikte Group Relative Policy Optimization (GRPO) aan een impliciete onbalans waarbij de omvang van beleidsupdates lager is voor moeilijkere vragen. Qua data richten augmentatiebenaderingen zich voornamelijk op het herformuleren van vragen om de diversiteit te vergroten, zonder de intrinsieke moeilijkheidsgraad systematisch te verhogen. Om deze problemen aan te pakken, stellen we een tweeledig MathForge-raamwerk voor om wiskundig redeneren te verbeteren door zich vanuit beide perspectieven op moeilijkere vragen te richten. Dit raamwerk omvat een Difficulty-Aware Group Policy Optimization (DGPO)-algoritme en een Multi-Aspect Question Reformulation (MQR)-strategie. Concreet herstelt DGPO eerst de impliciete onbalans in GRPO via een moeilijkheidsgebalanceerde schatting van het groepsvoordeel, en geeft het vervolgens prioriteit aan moeilijkere vragen via moeilijkheidsbewuste weging op vraagniveau. MQR herformuleert vragen tegelijkertijd over meerdere aspecten om de moeilijkheidsgraad te verhogen terwijl het oorspronkelijke gouden antwoord behouden blijft. Over vormt MathForge een synergetische lus: MQR verlegt de datagrenzen, en DGPO leert effectief van de aangevulde data. Uitgebreide experimenten tonen aan dat MathForge aanzienlijk beter presteert dan bestaande methoden bij diverse taken voor wiskundig redeneren. De code en aangevulde data zijn beschikbaar op https://github.com/AMAP-ML/MathForge.

English

Reinforcement Learning with Verifiable Rewards (RLVR) offers a robust mechanism for enhancing mathematical reasoning in large models. However, we identify a systematic lack of emphasis on more challenging questions in existing methods from both algorithmic and data perspectives, despite their importance for refining underdeveloped capabilities. Algorithmically, widely used Group Relative Policy Optimization (GRPO) suffers from an implicit imbalance where the magnitude of policy updates is lower for harder questions. Data-wise, augmentation approaches primarily rephrase questions to enhance diversity without systematically increasing intrinsic difficulty. To address these issues, we propose a two-dual MathForge framework to improve mathematical reasoning by targeting harder questions from both perspectives, which comprises a Difficulty-Aware Group Policy Optimization (DGPO) algorithm and a Multi-Aspect Question Reformulation (MQR) strategy. Specifically, DGPO first rectifies the implicit imbalance in GRPO via difficulty-balanced group advantage estimation, and further prioritizes harder questions by difficulty-aware question-level weighting. Meanwhile, MQR reformulates questions across multiple aspects to increase difficulty while maintaining the original gold answer. Overall, MathForge forms a synergistic loop: MQR expands the data frontier, and DGPO effectively learns from the augmented data. Extensive experiments show that MathForge significantly outperforms existing methods on various mathematical reasoning tasks. The code and augmented data are all available at https://github.com/AMAP-ML/MathForge.

Moeilijker is Beter: Wiskundig Redeneren Verbeteren via Moeilijkheidsbewuste GRPO en Multi-Aspect Vraagherformulering

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Samenvatting

Support