Échelle de difficulté des données : Amélioration des modèles de codage par apprentissage par renforcement sur des problèmes nouveaux et complexes
Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems
March 8, 2026
Auteurs: Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei
cs.AI
Résumé
L'entraînement des modèles de nouvelle génération pour la génération de code nécessite des jeux de données de haute qualité, mais les ensembles existants souffrent de déséquilibres de difficulté, d'incohérences de format et de problèmes de qualité des données. Nous relevons ces défis grâce à un traitement systématique des données et à une mise à l'échelle de la difficulté. Nous présentons un Cadre de Traitement des Données en quatre étapes comprenant la collecte, le traitement, le filtrage et la vérification, en intégrant un Filtrage Automatique de la Difficulté via un cadre prédire-étalonner-sélectionner basé sur un LLM. Ce cadre exploite des métriques de difficulté multidimensionnelles sur cinq dimensions pondérées pour conserver les problèmes difficiles tout en éliminant les plus simplistes. Le jeu de données MicroCoder qui en résulte comprend des dizaines de milliers de problèmes de programmation compétitive réels et soigneusement sélectionnés provenant de diverses plateformes, en mettant l'accent sur la récence et la difficulté. Les évaluations sur LiveCodeBench (strictement hors échantillon d'entraînement) démontrent que MicroCoder permet des gains de performance 3 fois supérieurs en moins de 300 étapes d'entraînement par rapport aux jeux de données de référence largement utilisés et de taille comparable, avec des avantages constants sous les algorithmes d'entraînement GRPO et sa variante. Le jeu de données MicroCoder apporte des améliorations nettes sur les problèmes de difficulté moyenne et élevée pour différentes tailles de modèles, atteignant des gains relatifs allant jusqu'à 17,2 % dans les performances globales lorsque les capacités du modèle sont le plus sollicitées. Ces résultats valident le fait qu'une curation des données sensible à la difficulté améliore les performances des modèles sur les tâches complexes, offrant ainsi plusieurs perspectives pour la création de jeux de données dans le domaine de la génération de code.
English
Training next-generation code generation models requires high-quality datasets, yet existing datasets face difficulty imbalance, format inconsistency, and data quality problems. We address these challenges through systematic data processing and difficulty scaling. We introduce a four-stage Data Processing Framework encompassing collection, processing, filtering, and verification, incorporating Automatic Difficulty Filtering via an LLM-based predict-calibrate-select framework that leverages multi-dimensional difficulty metrics across five weighted dimensions to retain challenging problems while removing simplistic ones. The resulting MicroCoder dataset comprises tens of thousands of curated real competitive programming problems from diverse platforms, emphasizing recency and difficulty. Evaluations on strictly unseen LiveCodeBench demonstrate that MicroCoder achieves 3x larger performance gains within 300 training steps compared to widely-used baseline datasets of comparable size, with consistent advantages under both GRPO and its variant training algorithms. The MicroCoder dataset delivers obvious improvements on medium and hard problems across different model sizes, achieving up to 17.2% relative gains in overall performance where model capabilities are most stretched. These results validate that difficulty-aware data curation improves model performance on challenging tasks, providing multiple insights for dataset creation in code generation.