ChatPaper.aiChatPaper

훈련 병목 현상 극복: 코딩 모델을 위한 효과적이고 안정적인 강화 학습

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

March 8, 2026
저자: Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei
cs.AI

초록

현대 코드 생성 모델은 더 긴 출력 길이, 가속화된 능력 성장, 변화된 학습 동역학을 보여주며, 이로 인해 기존의 학습 방법론, 알고리즘, 데이터셋은 성능 향상에 효과적이지 않게 되었습니다. 이러한 학습 병목 현상을 해결하기 위해 우리는 세 가지 혁신을 도입한 개선된 그룹 상대 정책 최적화(GRPO) 접근법인 MicroCoder-GRPO를 제안합니다: 학습 안정성을 유지하면서 긴 출력 잠재력을 향상시키는 조건부 트렁케이션 마스킹, 출력 다양성을 유지 및 촉진하는 다양성 기반 온도 선택, 해결책 다양성을 용이하게 하는 높은 클리핑 비율과 KL 손실 제거입니다. MicroCoder-GRPO는 LiveCodeBench v6에서 강력한 베이스라인 대비 최대 17.6%의 상대적 성능 향상을 달성했으며, 확장된 컨텍스트 평가 하에서 더 두드러진 향상을 보였습니다. 또한 우리는 300 학습 단계 내에서 LiveCodeBench v6에서 주류 데이터셋보다 3배 큰 성능 향상을 달성하는 더 도전적인 학습 코퍼스인 MicroCoder-Dataset와, 평가 정확도가 약 25% 개선되고 실행 속도가 약 40% 빨라진 강력한 평가 프레임워크인 MicroCoder-Evaluator를 공개합니다. 30개 이상의 통제 실험에 걸친 포괄적 분석을 통해 우리는 7가지 주요 측면에서 34개의 학습 통찰력을 제시하며, 적절히 학습된 모델이 더 큰 규모의 모델과 경쟁력 있는 성능을 달성할 수 있음을 입증합니다.
English
Modern code generation models exhibit longer outputs, accelerated capability growth, and changed training dynamics, rendering traditional training methodologies, algorithms, and datasets ineffective for improving their performance. To address these training bottlenecks, we propose MicroCoder-GRPO, an improved Group Relative Policy Optimization approach with three innovations: conditional truncation masking to improve long output potential while maintaining training stability, diversity-determined temperature selection to maintain and encourage output diversity, and removal of KL loss with high clipping ratios to facilitate solution diversity. MicroCoder-GRPO achieves up to 17.6% relative improvement over strong baselines on LiveCodeBench v6, with more pronounced gains under extended context evaluation. Additionally, we release MicroCoder-Dataset, a more challenging training corpus that achieves 3x larger performance gains than mainstream datasets on LiveCodeBench v6 within 300 training steps, and MicroCoder-Evaluator, a robust framework with approximately 25% improved evaluation accuracy and around 40% faster execution. Through comprehensive analysis across more than thirty controlled experiments, we reveal 34 training insights across seven main aspects, demonstrating that properly trained models can achieve competitive performance with larger counterparts.
PDF52March 16, 2026