ChatPaper.aiChatPaper

Briser les goulots d'étranglement de l'entraînement : Renforcement efficace et stable pour les modèles de codage

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

March 8, 2026
Auteurs: Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei
cs.AI

Résumé

Les modèles modernes de génération de code produisent des sorties plus longues, présentent une croissance accélérée des capacités et des dynamiques d'entraînement modifiées, rendant les méthodologies, algorithmes et jeux de données d'entraînement traditionnels inefficaces pour améliorer leurs performances. Pour résoudre ces goulots d'étranglement, nous proposons MicroCoder-GRPO, une approche améliorée d'optimisation de politique relative par groupe avec trois innovations : un masquage par troncation conditionnelle pour améliorer le potentiel de sortie longue tout en maintenant la stabilité de l'entraînement, une sélection de température basée sur la diversité pour maintenir et encourager la diversité des sorties, et la suppression de la perte KL avec des ratios d'écrêtage élevés pour faciliter la diversité des solutions. MicroCoder-GRPO obtient jusqu'à 17,6 % d'amélioration relative par rapport aux bases de référence solides sur LiveCodeBench v6, avec des gains plus prononcés dans le cadre d'évaluations en contexte étendu. De plus, nous publions MicroCoder-Dataset, un corpus d'entraînement plus exigeant qui permet des gains de performances 3 fois supérieurs à ceux des jeux de données grand public sur LiveCodeBench v6 en seulement 300 étapes d'entraînement, et MicroCoder-Evaluator, un cadre robuste avec une précision d'évaluation améliorée d'environ 25 % et une exécution environ 40 % plus rapide. Grâce à une analyse complète menée sur plus de trente expériences contrôlées, nous révélons 34 observations sur l'entraînement couvrant sept aspects principaux, démontrant que des modèles correctement entraînés peuvent atteindre des performances compétitives par rapport à des modèles plus volumineux.
English
Modern code generation models exhibit longer outputs, accelerated capability growth, and changed training dynamics, rendering traditional training methodologies, algorithms, and datasets ineffective for improving their performance. To address these training bottlenecks, we propose MicroCoder-GRPO, an improved Group Relative Policy Optimization approach with three innovations: conditional truncation masking to improve long output potential while maintaining training stability, diversity-determined temperature selection to maintain and encourage output diversity, and removal of KL loss with high clipping ratios to facilitate solution diversity. MicroCoder-GRPO achieves up to 17.6% relative improvement over strong baselines on LiveCodeBench v6, with more pronounced gains under extended context evaluation. Additionally, we release MicroCoder-Dataset, a more challenging training corpus that achieves 3x larger performance gains than mainstream datasets on LiveCodeBench v6 within 300 training steps, and MicroCoder-Evaluator, a robust framework with approximately 25% improved evaluation accuracy and around 40% faster execution. Through comprehensive analysis across more than thirty controlled experiments, we reveal 34 training insights across seven main aspects, demonstrating that properly trained models can achieve competitive performance with larger counterparts.
PDF52March 16, 2026