Escalando la Dificultad de los Datos: Mejorando Modelos de Codificación mediante Aprendizaje por Refuerzo en Problemas Novedosos y Desafiantes
Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems
March 8, 2026
Autores: Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei
cs.AI
Resumen
La formación de modelos de nueva generación para generación de código requiere conjuntos de datos de alta calidad, sin embargo, los conjuntos existentes presentan desequilibrio de dificultad, inconsistencia de formato y problemas de calidad de los datos. Abordamos estos desafíos mediante un procesamiento sistemático de datos y una escalabilidad de la dificultad. Introducimos un Marco de Procesamiento de Datos en cuatro etapas que abarca la recopilación, el procesamiento, el filtrado y la verificación, incorporando un Filtrado Automático de Dificultad mediante un marco predictivo-calibrar-seleccionar basado en LLM que aprovecha métricas de dificultad multidimensionales en cinco dimensiones ponderadas para retener problemas desafiantes mientras elimina los simplistas. El conjunto de datos resultante, MicroCoder, comprende decenas de miles de problemas currados de programación competitiva real procedentes de diversas plataformas, haciendo hincapié en la actualidad y la dificultad. Las evaluaciones en LiveCodeBench, estrictamente no visto durante el entrenamiento, demuestran que MicroCoder logra ganancias de rendimiento 3 veces mayores dentro de 300 pasos de entrenamiento en comparación con conjuntos de datos de referencia de uso generalizado y tamaño comparable, con ventajas consistentes bajo ambos algoritmos de entrenamiento, GRPO y su variante. El conjunto de datos MicroCoder ofrece mejoras evidentes en problemas de dificultad media y alta en diferentes tamaños de modelo, logrando ganancias relativas de hasta el 17.2% en el rendimiento general donde las capacidades del modelo son más exigidas. Estos resultados validan que la curación de datos consciente de la dificultad mejora el rendimiento del modelo en tareas desafiantes, proporcionando múltiples perspectivas para la creación de conjuntos de datos en generación de código.
English
Training next-generation code generation models requires high-quality datasets, yet existing datasets face difficulty imbalance, format inconsistency, and data quality problems. We address these challenges through systematic data processing and difficulty scaling. We introduce a four-stage Data Processing Framework encompassing collection, processing, filtering, and verification, incorporating Automatic Difficulty Filtering via an LLM-based predict-calibrate-select framework that leverages multi-dimensional difficulty metrics across five weighted dimensions to retain challenging problems while removing simplistic ones. The resulting MicroCoder dataset comprises tens of thousands of curated real competitive programming problems from diverse platforms, emphasizing recency and difficulty. Evaluations on strictly unseen LiveCodeBench demonstrate that MicroCoder achieves 3x larger performance gains within 300 training steps compared to widely-used baseline datasets of comparable size, with consistent advantages under both GRPO and its variant training algorithms. The MicroCoder dataset delivers obvious improvements on medium and hard problems across different model sizes, achieving up to 17.2% relative gains in overall performance where model capabilities are most stretched. These results validate that difficulty-aware data curation improves model performance on challenging tasks, providing multiple insights for dataset creation in code generation.