Più Difficile è Meglio: Potenziamento del Ragionamento Matematico tramite GRPO Consapevole della Difficoltà e Riformulazione Multi-Aspetto delle Domande

Abstract

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) offre un meccanismo robusto per potenziare il ragionamento matematico nei modelli di grandi dimensioni. Tuttavia, rileviamo una carenza sistematica di enfasi sulle domande più complesse nei metodi esistenti, sia dal punto di vista algoritmico che dei dati, nonostante la loro importanza per affinare capacità ancora poco sviluppate. Algoritmicamente, l'ampiamente utilizzata Ottimizzazione della Politica con Gruppo Relativo (GRPO) soffre di uno squilibrio implicito per cui l'entità degli aggiornamenti della politica è inferiore per le domande più difficili. Dal lato dei dati, gli approcci di aumento si limitano principalmente a parafrasare le domande per migliorare la diversità, senza aumentare sistematicamente la difficoltà intrinseca. Per affrontare questi problemi, proponiamo un framework a doppio binario, MathForge, per migliorare il ragionamento matematico mirando alle domande più difficili da entrambe le prospettive. Esso comprende un algoritmo di Ottimizzazione della Politica di Gruppo Consapevole della Difficoltà (DGPO) e una strategia di Riformulazione delle Domande a Multi-Aspetto (MQR). Nello specifico, DGPO corregge prima lo squilibrio implicito nella GRPO tramite una stima del vantaggio di gruppo bilanciata per difficoltà, e dà ulteriore priorità alle domande più complesse mediante una ponderazione a livello di domanda consapevole della difficoltà. Nel frattempo, MQR riformula le domande attraverso molteplici aspetti per aumentarne la difficoltà mantenendo la risposta aurea originale. Nel complesso, MathForge forma un ciclo sinergico: MQR espande la frontiera dei dati e DGPO apprende efficacemente dai dati aumentati. Esperimenti estensivi dimostrano che MathForge supera significativamente i metodi esistenti in varie attività di ragionamento matematico. Il codice e i dati aumentati sono disponibili al sito https://github.com/AMAP-ML/MathForge.

English

Reinforcement Learning with Verifiable Rewards (RLVR) offers a robust mechanism for enhancing mathematical reasoning in large models. However, we identify a systematic lack of emphasis on more challenging questions in existing methods from both algorithmic and data perspectives, despite their importance for refining underdeveloped capabilities. Algorithmically, widely used Group Relative Policy Optimization (GRPO) suffers from an implicit imbalance where the magnitude of policy updates is lower for harder questions. Data-wise, augmentation approaches primarily rephrase questions to enhance diversity without systematically increasing intrinsic difficulty. To address these issues, we propose a two-dual MathForge framework to improve mathematical reasoning by targeting harder questions from both perspectives, which comprises a Difficulty-Aware Group Policy Optimization (DGPO) algorithm and a Multi-Aspect Question Reformulation (MQR) strategy. Specifically, DGPO first rectifies the implicit imbalance in GRPO via difficulty-balanced group advantage estimation, and further prioritizes harder questions by difficulty-aware question-level weighting. Meanwhile, MQR reformulates questions across multiple aspects to increase difficulty while maintaining the original gold answer. Overall, MathForge forms a synergistic loop: MQR expands the data frontier, and DGPO effectively learns from the augmented data. Extensive experiments show that MathForge significantly outperforms existing methods on various mathematical reasoning tasks. The code and augmented data are all available at https://github.com/AMAP-ML/MathForge.

Più Difficile è Meglio: Potenziamento del Ragionamento Matematico tramite GRPO Consapevole della Difficoltà e Riformulazione Multi-Aspetto delle Domande

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Abstract

Support