Escalando a Dificuldade dos Dados: Melhorando Modelos de Codificação por Meio de Aprendizado por Reforço em Problemas Novos e Desafiadores
Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems
March 8, 2026
Autores: Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei
cs.AI
Resumo
A formação de modelos de geração de código de próxima geração requer conjuntos de dados de alta qualidade, no entanto, os conjuntos de dados existentes enfrentam desequilíbrio de dificuldade, inconsistência de formato e problemas de qualidade dos dados. Abordamos esses desafios através de um processamento sistemático de dados e escalonamento de dificuldade. Introduzimos uma Estrutura de Processamento de Dados em quatro estágios, abrangendo coleta, processamento, filtragem e verificação, incorporando uma Filtragem Automática de Dificuldade através de uma estrutura predizer-calibrar-selecionar baseada em LLM que aproveita métricas de dificuldade multidimensionais em cinco dimensões ponderadas para reter problemas desafiadores, removendo os simplistas. O conjunto de dados MicroCoder resultante compreende dezenas de milhares de problemas curados e reais de programação competitiva de diversas plataformas, com ênfase na atualidade e dificuldade. Avaliações no estritamente não visto LiveCodeBench demonstram que o MicroCoder alcança ganhos de desempenho 3 vezes maiores dentro de 300 etapas de treinamento em comparação com conjuntos de dados de linha de base amplamente utilizados de tamanho comparável, com vantagens consistentes sob os algoritmos de treinamento GRPO e sua variante. O conjunto de dados MicroCoder proporciona melhorias óbvias em problemas médios e difíceis em diferentes tamanhos de modelo, alcançando ganhos relativos de até 17,2% no desempenho geral onde as capacidades do modelo são mais exigidas. Esses resultados validam que a curadoria de dados consciente da dificuldade melhora o desempenho do modelo em tarefas desafiadoras, fornecendo múltiplos insights para a criação de conjuntos de dados na geração de código.
English
Training next-generation code generation models requires high-quality datasets, yet existing datasets face difficulty imbalance, format inconsistency, and data quality problems. We address these challenges through systematic data processing and difficulty scaling. We introduce a four-stage Data Processing Framework encompassing collection, processing, filtering, and verification, incorporating Automatic Difficulty Filtering via an LLM-based predict-calibrate-select framework that leverages multi-dimensional difficulty metrics across five weighted dimensions to retain challenging problems while removing simplistic ones. The resulting MicroCoder dataset comprises tens of thousands of curated real competitive programming problems from diverse platforms, emphasizing recency and difficulty. Evaluations on strictly unseen LiveCodeBench demonstrate that MicroCoder achieves 3x larger performance gains within 300 training steps compared to widely-used baseline datasets of comparable size, with consistent advantages under both GRPO and its variant training algorithms. The MicroCoder dataset delivers obvious improvements on medium and hard problems across different model sizes, achieving up to 17.2% relative gains in overall performance where model capabilities are most stretched. These results validate that difficulty-aware data curation improves model performance on challenging tasks, providing multiple insights for dataset creation in code generation.