Schwieriger ist besser: Steigerung des mathematischen Denkvermögens durch schwierigkeitsbewusstes GRPO und mehrdimensionale Fragenumformulierung
Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
January 28, 2026
papers.authors: Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu
cs.AI
papers.abstract
Reinforcement Learning with Verifiable Rewards (RLVR) bietet einen robusten Mechanismus zur Verbesserung des mathematischen Denkvermögens in großen Modellen. Wir stellen jedoch fest, dass bestehende Methoden aus algorithmischer und datentechnischer Perspektive systematisch eine zu geringe Betonung auf anspruchsvollere Fragen legen, obwohl diese für die Verfeinerung unterentwickelter Fähigkeiten von entscheidender Bedeutung sind. Algorithmisch leidet das weit verbreitete Group Relative Policy Optimization (GRPO) unter einem impliziten Ungleichgewicht, bei dem das Ausmaß der Policy-Updates für schwierigere Fragen geringer ist. Auf der Datenseite zielen Augmentierungsansätze primär auf die Umformulierung von Fragen zur Erhöhung der Diversität ab, ohne die intrinsische Schwierigkeit systematisch zu steigern. Um diese Probleme zu adressieren, schlagen wir ein zweigleisiges MathForge-Framework vor, das das mathematische Denkvermögen verbessert, indem es anspruchsvollere Fragen aus beiden Perspektiven in den Fokus nimmt. Es besteht aus einem Difficulty-Aware Group Policy Optimization (DGPO)-Algorithmus und einer Multi-Aspect Question Reformulation (MQR)-Strategie. Konkret korrigiert DGPO zunächst das implizite Ungleichgewicht in GRPO durch einen schwierigkeitsausgeglichenen Gruppen-Vorteils-Schätzer und priorisiert schwierigere Fragen weiterhin durch eine schwierigkeitsabhängige Gewichtung auf Frageebene. Parallel dazu reformuliert MQR Fragen über mehrere Aspekte hinweg, um deren Schwierigkeitsgrad zu erhöhen, während die ursprüngliche Goldstandard-Antwort beibehalten wird. Insgesamt bildet MathForge eine synergetische Schleife: MQR erweitert die Datenfront, und DGPO lernt effektiv aus den augmentierten Daten. Umfangreiche Experimente zeigen, dass MathForge bestehende Methoden bei verschiedenen mathematischen Reasoning-Aufgaben signifikant übertrifft. Der Code und die augmentierten Daten sind unter https://github.com/AMAP-ML/MathForge verfügbar.
English
Reinforcement Learning with Verifiable Rewards (RLVR) offers a robust mechanism for enhancing mathematical reasoning in large models. However, we identify a systematic lack of emphasis on more challenging questions in existing methods from both algorithmic and data perspectives, despite their importance for refining underdeveloped capabilities. Algorithmically, widely used Group Relative Policy Optimization (GRPO) suffers from an implicit imbalance where the magnitude of policy updates is lower for harder questions. Data-wise, augmentation approaches primarily rephrase questions to enhance diversity without systematically increasing intrinsic difficulty. To address these issues, we propose a two-dual MathForge framework to improve mathematical reasoning by targeting harder questions from both perspectives, which comprises a Difficulty-Aware Group Policy Optimization (DGPO) algorithm and a Multi-Aspect Question Reformulation (MQR) strategy. Specifically, DGPO first rectifies the implicit imbalance in GRPO via difficulty-balanced group advantage estimation, and further prioritizes harder questions by difficulty-aware question-level weighting. Meanwhile, MQR reformulates questions across multiple aspects to increase difficulty while maintaining the original gold answer. Overall, MathForge forms a synergistic loop: MQR expands the data frontier, and DGPO effectively learns from the augmented data. Extensive experiments show that MathForge significantly outperforms existing methods on various mathematical reasoning tasks. The code and augmented data are all available at https://github.com/AMAP-ML/MathForge.