ChatPaper.aiChatPaper

더 어려울수록 더 좋다: 난이도 인식 GRPO와 다각적 질문 재구성을 통한 수학적 추론 능력 향상

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

January 28, 2026
저자: Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 모델의 수학적 추론 능력 향상을 위한 강력한 메커니즘을 제공합니다. 그러나 기존 방법론에서는 미흡한 능력 정교화에 중요함에도 불구하고 알고리즘과 데이터 측면 모두에서 더 도전적인 문제에 대한 체계적인 강조가 부족함을 확인했습니다. 알고리즘적으로 널리 사용되는 그룹 상대 정책 최적화(GRPO)는 어려운 문제일수록 정책 업데이트 규모가 작아지는 암묵적 불균형 문제를 안고 있습니다. 데이터 측면에서 증강 접근법은 주로 다양성 향상을 위해 문제를 재구성할 뿐, 본질적 난이도를 체계적으로 높이지 않습니다. 이러한 문제를 해결하기 위해 우리는 두 가지 관점에서 어려운 문제를 대상으로 수학적 추론을 개선하는 이중 MathForge 프레임워크를 제안합니다. 이는 난이도 인식 그룹 정책 최적화(DGPO) 알고리즘과 다중 측면 문제 재구성(MQR) 전략으로 구성됩니다. 구체적으로 DGPO는 난이도 균형 그룹 어드밴티지 추정을 통해 GRPO의 암묵적 불균형을 먼저 시정하고, 난이도 인식 문제 수준 가중치를 통해 어려운 문제를 추가로 우선시합니다. 한편 MQR은 원래의 정답을 유지하면서 난이도를 높이기 위해 여러 측면에서 문제를 재구성합니다. 전체적으로 MathForge는 상호 시너지 순환을 형성합니다. MQR은 데이터 프론티어를 확장하고 DGPO는 증강된 데이터로부터 효과적으로 학습합니다. 광범위한 실험을 통해 MathForge가 다양한 수학적 추론 과제에서 기존 방법론을 크게 능가함을 입증했습니다. 코드와 증강 데이터는 https://github.com/AMAP-ML/MathForge에서 확인할 수 있습니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) offers a robust mechanism for enhancing mathematical reasoning in large models. However, we identify a systematic lack of emphasis on more challenging questions in existing methods from both algorithmic and data perspectives, despite their importance for refining underdeveloped capabilities. Algorithmically, widely used Group Relative Policy Optimization (GRPO) suffers from an implicit imbalance where the magnitude of policy updates is lower for harder questions. Data-wise, augmentation approaches primarily rephrase questions to enhance diversity without systematically increasing intrinsic difficulty. To address these issues, we propose a two-dual MathForge framework to improve mathematical reasoning by targeting harder questions from both perspectives, which comprises a Difficulty-Aware Group Policy Optimization (DGPO) algorithm and a Multi-Aspect Question Reformulation (MQR) strategy. Specifically, DGPO first rectifies the implicit imbalance in GRPO via difficulty-balanced group advantage estimation, and further prioritizes harder questions by difficulty-aware question-level weighting. Meanwhile, MQR reformulates questions across multiple aspects to increase difficulty while maintaining the original gold answer. Overall, MathForge forms a synergistic loop: MQR expands the data frontier, and DGPO effectively learns from the augmented data. Extensive experiments show that MathForge significantly outperforms existing methods on various mathematical reasoning tasks. The code and augmented data are all available at https://github.com/AMAP-ML/MathForge.
PDF9312January 30, 2026