Más Difícil es Mejor: Potenciando el Razonamiento Matemático mediante GRPO Consciente de la Dificultad y Reformulación de Preguntas Multi-Aspecto
Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
January 28, 2026
Autores: Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ofrece un mecanismo robusto para mejorar el razonamiento matemático en modelos grandes. Sin embargo, identificamos una falta sistemática de énfasis en preguntas más desafiantes en los métodos existentes, tanto desde perspectivas algorítmicas como de datos, a pesar de su importancia para refinar capacidades subdesarrolladas. Algorítmicamente, la ampliamente utilizada Optimización de Políticas Relativa a Grupos (GRPO) sufre de un desequilibrio implícito donde la magnitud de las actualizaciones de la política es menor para preguntas más difíciles. En cuanto a los datos, los enfoques de aumento principalmente reformulan preguntas para mejorar la diversidad sin aumentar sistemáticamente la dificultad intrínseca. Para abordar estos problemas, proponemos un marco dual MathForge para mejorar el razonamiento matemático orientándose a preguntas más difíciles desde ambas perspectivas, el cual comprende un algoritmo de Optimización de Políticas de Grupo Consciente de la Dificultad (DGPO) y una estrategia de Reformulación de Preguntas Multi-Aspecto (MQR). Específicamente, DGPO primero rectifica el desequilibrio implícito en GRPO mediante una estimación de ventaja grupal balanceada por dificultad, y además prioriza preguntas más difíciles mediante una ponderación a nivel de pregunta consciente de la dificultad. Mientras tanto, MQR reformula preguntas en múltiples aspectos para aumentar la dificultad manteniendo la respuesta de oro original. En general, MathForge forma un bucle sinérgico: MQR expande la frontera de datos, y DGPO aprende efectivamente de los datos aumentados. Experimentos exhaustivos muestran que MathForge supera significativamente a los métodos existentes en varias tareas de razonamiento matemático. El código y los datos aumentados están disponibles en https://github.com/AMAP-ML/MathForge.
English
Reinforcement Learning with Verifiable Rewards (RLVR) offers a robust mechanism for enhancing mathematical reasoning in large models. However, we identify a systematic lack of emphasis on more challenging questions in existing methods from both algorithmic and data perspectives, despite their importance for refining underdeveloped capabilities. Algorithmically, widely used Group Relative Policy Optimization (GRPO) suffers from an implicit imbalance where the magnitude of policy updates is lower for harder questions. Data-wise, augmentation approaches primarily rephrase questions to enhance diversity without systematically increasing intrinsic difficulty. To address these issues, we propose a two-dual MathForge framework to improve mathematical reasoning by targeting harder questions from both perspectives, which comprises a Difficulty-Aware Group Policy Optimization (DGPO) algorithm and a Multi-Aspect Question Reformulation (MQR) strategy. Specifically, DGPO first rectifies the implicit imbalance in GRPO via difficulty-balanced group advantage estimation, and further prioritizes harder questions by difficulty-aware question-level weighting. Meanwhile, MQR reformulates questions across multiple aspects to increase difficulty while maintaining the original gold answer. Overall, MathForge forms a synergistic loop: MQR expands the data frontier, and DGPO effectively learns from the augmented data. Extensive experiments show that MathForge significantly outperforms existing methods on various mathematical reasoning tasks. The code and augmented data are all available at https://github.com/AMAP-ML/MathForge.