Quebrando os Gargalos do Treinamento: Aprendizado por Reforço Eficiente e Estável para Modelos de Codificação
Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models
March 8, 2026
Autores: Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei
cs.AI
Resumo
Os modelos modernos de geração de código apresentam saídas mais longas, crescimento acelerado de capacidades e dinâmicas de treinamento alteradas, tornando as metodologias, algoritmos e conjuntos de dados de treinamento tradicionais ineficazes para melhorar seu desempenho. Para enfrentar esses gargalos de treinamento, propomos o MicroCoder-GRPO, uma abordagem aprimorada de Otimização de Política Relativa em Grupo com três inovações: mascaramento condicional de truncamento para melhorar o potencial de saída longa mantendo a estabilidade do treinamento, seleção de temperatura baseada em diversidade para manter e incentivar a diversidade de saída, e remoção da perda KL com altas taxas de recorte para facilitar a diversidade de soluções. O MicroCoder-GRPO alcança uma melhoria relativa de até 17,6% sobre linhas de base robustas no LiveCodeBench v6, com ganhos mais pronunciados sob avaliação de contexto estendido. Adicionalmente, lançamos o MicroCoder-Dataset, um corpus de treinamento mais desafiador que obtém ganhos de desempenho 3 vezes maiores do que conjuntos de dados convencionais no LiveCodeBench v6 dentro de 300 etapas de treinamento, e o MicroCoder-Evaluator, um framework robusto com aproximadamente 25% de precisão de avaliação melhorada e execução cerca de 40% mais rápida. Através de análise abrangente em mais de trinta experimentos controlados, revelamos 34 insights de treinamento em sete aspectos principais, demonstrando que modelos adequadamente treinados podem alcançar desempenho competitivo com contrapartes maiores.
English
Modern code generation models exhibit longer outputs, accelerated capability growth, and changed training dynamics, rendering traditional training methodologies, algorithms, and datasets ineffective for improving their performance. To address these training bottlenecks, we propose MicroCoder-GRPO, an improved Group Relative Policy Optimization approach with three innovations: conditional truncation masking to improve long output potential while maintaining training stability, diversity-determined temperature selection to maintain and encourage output diversity, and removal of KL loss with high clipping ratios to facilitate solution diversity. MicroCoder-GRPO achieves up to 17.6% relative improvement over strong baselines on LiveCodeBench v6, with more pronounced gains under extended context evaluation. Additionally, we release MicroCoder-Dataset, a more challenging training corpus that achieves 3x larger performance gains than mainstream datasets on LiveCodeBench v6 within 300 training steps, and MicroCoder-Evaluator, a robust framework with approximately 25% improved evaluation accuracy and around 40% faster execution. Through comprehensive analysis across more than thirty controlled experiments, we reveal 34 training insights across seven main aspects, demonstrating that properly trained models can achieve competitive performance with larger counterparts.