Superare i Colli di Bottiglia dell'Addestramento: Apprendimento per Rinforzo Efficace e Stabile per Modelli di Codice
Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models
March 8, 2026
Autori: Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei
cs.AI
Abstract
I moderni modelli di generazione di codice producono output più lunghi, mostrano una crescita accelerata delle capacità e dinamiche di addestramento modificate, rendendo le metodologie, gli algoritmi e i dataset di addestramento tradizionali inefficaci per migliorare le loro prestazioni. Per affrontare questi colli di bottiglia dell'addestramento, proponiamo MicroCoder-GRPO, un approccio migliorato di Ottimizzazione della Politica Relativa di Gruppo con tre innovazioni: mascheramento condizionale del troncamento per migliorare il potenziale di output lungo mantenendo la stabilità dell'addestramento, selezione della temperatura basata sulla diversità per mantenere e incoraggiare la diversità degli output, e rimozione della perdita KL con alti rapporti di clipping per facilitare la diversità delle soluzioni. MicroCoder-GRPO raggiunge un miglioramento relativo fino al 17,6% rispetto a baseline solide su LiveCodeBench v6, con guadagni più pronunciati in contesti di valutazione estesi. Inoltre, rilasciamo MicroCoder-Dataset, un corpus di addestramento più impegnativo che ottiene guadagni prestazionali 3 volte maggiori rispetto ai dataset mainstream su LiveCodeBench v6 entro 300 passi di addestramento, e MicroCoder-Evaluator, un framework robusto con un'accuratezza di valutazione migliorata di circa il 25% e un'esecuzione circa il 40% più veloce. Attraverso un'analisi completa su più di trenta esperimenti controllati, riveliamo 34 insight sull'addestramento attraverso sette aspetti principali, dimostrando che modelli adeguatamente addestrati possono raggiungere prestazioni competitive con controparti più grandi.
English
Modern code generation models exhibit longer outputs, accelerated capability growth, and changed training dynamics, rendering traditional training methodologies, algorithms, and datasets ineffective for improving their performance. To address these training bottlenecks, we propose MicroCoder-GRPO, an improved Group Relative Policy Optimization approach with three innovations: conditional truncation masking to improve long output potential while maintaining training stability, diversity-determined temperature selection to maintain and encourage output diversity, and removal of KL loss with high clipping ratios to facilitate solution diversity. MicroCoder-GRPO achieves up to 17.6% relative improvement over strong baselines on LiveCodeBench v6, with more pronounced gains under extended context evaluation. Additionally, we release MicroCoder-Dataset, a more challenging training corpus that achieves 3x larger performance gains than mainstream datasets on LiveCodeBench v6 within 300 training steps, and MicroCoder-Evaluator, a robust framework with approximately 25% improved evaluation accuracy and around 40% faster execution. Through comprehensive analysis across more than thirty controlled experiments, we reveal 34 training insights across seven main aspects, demonstrating that properly trained models can achieve competitive performance with larger counterparts.