Trainingsknelpunten doorbreken: Effectief en stabiel reinforcement learning voor coderingsmodellen

Samenvatting

Moderne codegeneratiemodellen vertonen langere outputs, versnelde capaciteitsgroei en gewijzigde trainingsdynamiek, waardoor traditionele trainingsmethodologieën, algoritmen en datasets niet langer effectief zijn voor het verbeteren van hun prestaties. Om deze trainingsknelpunten aan te pakken, stellen we MicroCoder-GRPO voor, een verbeterde Group Relative Policy Optimization-benadering met drie innovaties: conditionele truncatie-masking om het potentieel voor lange outputs te verbeteren met behoud van trainingsstabiliteit, diversiteit-gestuurde temperatuurselectie om outputdiversiteit te behouden en te stimuleren, en verwijdering van KL-verlies met hoge clipping-ratio's om oplossingsdiversiteit te vergemakkelijken. MicroCoder-GRPO behaalt tot 17,6% relatieve verbetering ten opzichte van sterke baseline-modellen op LiveCodeBench v6, met meer uitgesproken winst onder extended context-evaluatie. Daarnaast lanceren we MicroCoder-Dataset, een uitdagendere trainingscorpus die binnen 300 trainingsstappen een 3x grotere prestatieverbetering bereikt dan mainstream datasets op LiveCodeBench v6, en MicroCoder-Evaluator, een robuust raamwerk met ongeveer 25% verbeterde evaluatienauwkeurigheid en circa 40% snellere uitvoering. Door middel van uitgebreide analyse over meer dan dertig gecontroleerde experimenten onthullen we 34 trainingsinzichten over zeven hoofdaspecten, waarmee we aantonen dat goed getrainde modellen competitieve prestaties kunnen bereiken in vergelijking met grotere tegenhangers.

English

Modern code generation models exhibit longer outputs, accelerated capability growth, and changed training dynamics, rendering traditional training methodologies, algorithms, and datasets ineffective for improving their performance. To address these training bottlenecks, we propose MicroCoder-GRPO, an improved Group Relative Policy Optimization approach with three innovations: conditional truncation masking to improve long output potential while maintaining training stability, diversity-determined temperature selection to maintain and encourage output diversity, and removal of KL loss with high clipping ratios to facilitate solution diversity. MicroCoder-GRPO achieves up to 17.6% relative improvement over strong baselines on LiveCodeBench v6, with more pronounced gains under extended context evaluation. Additionally, we release MicroCoder-Dataset, a more challenging training corpus that achieves 3x larger performance gains than mainstream datasets on LiveCodeBench v6 within 300 training steps, and MicroCoder-Evaluator, a robust framework with approximately 25% improved evaluation accuracy and around 40% faster execution. Through comprehensive analysis across more than thirty controlled experiments, we reveal 34 training insights across seven main aspects, demonstrating that properly trained models can achieve competitive performance with larger counterparts.

Trainingsknelpunten doorbreken: Effectief en stabiel reinforcement learning voor coderingsmodellen

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Samenvatting

Support