Rompiendo Cuellos de Botella en el Entrenamiento: Aprendizaje por Refuerzo Eficaz y Estable para Modelos de Codificación

Resumen

Los modelos modernos de generación de código presentan salidas más extensas, un crecimiento acelerado de capacidades y dinámicas de entrenamiento modificadas, lo que vuelve ineficaces las metodologías, algoritmos y conjuntos de datos de entrenamiento tradicionales para mejorar su rendimiento. Para abordar estos cuellos de botella en el entrenamiento, proponemos MicroCoder-GRPO, un enfoque mejorado de Optimización de Políticas Relativas por Grupos con tres innovaciones: enmascaramiento por truncamiento condicional para mejorar el potencial de salidas largas manteniendo la estabilidad del entrenamiento, selección de temperatura determinada por diversidad para mantener y fomentar la diversidad de salidas, y eliminación de la pérdida KL con ratios de recorte altos para facilitar la diversidad de soluciones. MicroCoder-GRPO logra una mejora relativa de hasta el 17.6% sobre líneas base sólidas en LiveCodeBench v6, con ganancias más pronunciadas bajo evaluación de contexto extendido. Adicionalmente, publicamos MicroCoder-Dataset, un corpus de entrenamiento más desafiante que logra ganancias de rendimiento 3 veces mayores que los conjuntos de datos convencionales en LiveCodeBench v6 dentro de 300 pasos de entrenamiento, y MicroCoder-Evaluator, un marco robusto con aproximadamente un 25% de mejora en la precisión de evaluación y alrededor de un 40% de ejecución más rápida. Mediante un análisis exhaustivo en más de treinta experimentos controlados, revelamos 34 hallazgos sobre el entrenamiento en siete aspectos principales, demostrando que los modelos adecuadamente entrenados pueden alcanzar un rendimiento competitivo con contrapartes de mayor tamaño.

English

Modern code generation models exhibit longer outputs, accelerated capability growth, and changed training dynamics, rendering traditional training methodologies, algorithms, and datasets ineffective for improving their performance. To address these training bottlenecks, we propose MicroCoder-GRPO, an improved Group Relative Policy Optimization approach with three innovations: conditional truncation masking to improve long output potential while maintaining training stability, diversity-determined temperature selection to maintain and encourage output diversity, and removal of KL loss with high clipping ratios to facilitate solution diversity. MicroCoder-GRPO achieves up to 17.6% relative improvement over strong baselines on LiveCodeBench v6, with more pronounced gains under extended context evaluation. Additionally, we release MicroCoder-Dataset, a more challenging training corpus that achieves 3x larger performance gains than mainstream datasets on LiveCodeBench v6 within 300 training steps, and MicroCoder-Evaluator, a robust framework with approximately 25% improved evaluation accuracy and around 40% faster execution. Through comprehensive analysis across more than thirty controlled experiments, we reveal 34 training insights across seven main aspects, demonstrating that properly trained models can achieve competitive performance with larger counterparts.

Rompiendo Cuellos de Botella en el Entrenamiento: Aprendizaje por Refuerzo Eficaz y Estable para Modelos de Codificación

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Resumen

Support