トレーニングのボトルネック打破:コーディングモデルのための効率的かつ安定した強化学習
Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models
March 8, 2026
著者: Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei
cs.AI
要旨
現代のコード生成モデルは、より長い出力、加速する能力向上、変化する学習ダイナミクスを示し、従来の学習方法論・アルゴリズム・データセットでは性能向上が困難となっている。これらの学習ボトルネックに対処するため、本論文ではMicroCoder-GRPOを提案する。これは改良版Group Relative Policy Optimizationアプローチであり、3つの革新を備える:(1) 学習安定性を維持しつつ長文出力の可能性を高める条件付き切り捨てマスキング、(2) 出力多様性を維持・促進する多様性基準温度選択、(3) 解の多様性を促進する高クリップ比率でのKL損失除去である。MicroCoder-GRPOはLiveCodeBench v6において強力なベースライン比で最大17.6%の相対改善を達成し、拡張コンテキスト評価ではより顕著な効果を示した。さらに、300学習ステップで主流データセット比3倍の性能向上を実現する高難度学習コーパスMicroCoder-Datasetと、評価精度約25%向上・実行速度約40%高速化を実現する頑健な評価フレームワークMicroCoder-Evaluatorを公開する。30以上の制御実験を通じた包括的分析により、7つの主要側面にわたる34の学習知見を明らかにし、適切に学習されたモデルが大規模モデルに匹敵する性能を達成可能であることを実証する。
English
Modern code generation models exhibit longer outputs, accelerated capability growth, and changed training dynamics, rendering traditional training methodologies, algorithms, and datasets ineffective for improving their performance. To address these training bottlenecks, we propose MicroCoder-GRPO, an improved Group Relative Policy Optimization approach with three innovations: conditional truncation masking to improve long output potential while maintaining training stability, diversity-determined temperature selection to maintain and encourage output diversity, and removal of KL loss with high clipping ratios to facilitate solution diversity. MicroCoder-GRPO achieves up to 17.6% relative improvement over strong baselines on LiveCodeBench v6, with more pronounced gains under extended context evaluation. Additionally, we release MicroCoder-Dataset, a more challenging training corpus that achieves 3x larger performance gains than mainstream datasets on LiveCodeBench v6 within 300 training steps, and MicroCoder-Evaluator, a robust framework with approximately 25% improved evaluation accuracy and around 40% faster execution. Through comprehensive analysis across more than thirty controlled experiments, we reveal 34 training insights across seven main aspects, demonstrating that properly trained models can achieve competitive performance with larger counterparts.