Масштабирование сложности данных: улучшение моделей кодирования с помощью обучения с подкреплением на новых и сложных задачах
Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems
March 8, 2026
Авторы: Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei
cs.AI
Аннотация
Обучение моделей нового поколения для генерации кода требует высококачественных наборов данных, однако существующие наборы сталкиваются с проблемами дисбаланса сложности, несогласованности форматов и низкого качества данных. Мы решаем эти проблемы с помощью систематической обработки данных и масштабирования сложности. Мы представляем четырехэтапную систему обработки данных, включающую сбор, обработку, фильтрацию и проверку, а также автоматическую фильтрацию по сложности через основанную на больших языковых моделях (LLM) систему «прогноз-калибровка-выбор». Эта система использует многомерные метрики сложности по пяти взвешенным параметрам для сохранения сложных задач и удаления упрощенных. Результирующий набор данных MicroCoder включает десятки тысяч отобранных реальных задач по спортивному программированию с различных платформ с акцентом на актуальность и сложность. Оценки на строго неизвестном LiveCodeBench показывают, что MicroCoder обеспечивает в 3 раза больший прирост производительности в течение 300 шагов обучения по сравнению с широко используемыми базовыми наборами данных сопоставимого размера, с устойчивыми преимуществами как при использовании GRPO, так и его вариантов в качестве алгоритмов обучения. Набор данных MicroCoder демонстрирует значительное улучшение результатов на задачах средней и высокой сложности для моделей разного размера, достигая до 17.2% относительного прироста в общей производительности там, где возможности моделей наиболее напряжены. Эти результаты подтверждают, что курирование данных с учетом сложности улучшает производительность моделей на сложных задачах, предоставляя важные инсайты для создания наборов данных в области генерации кода.
English
Training next-generation code generation models requires high-quality datasets, yet existing datasets face difficulty imbalance, format inconsistency, and data quality problems. We address these challenges through systematic data processing and difficulty scaling. We introduce a four-stage Data Processing Framework encompassing collection, processing, filtering, and verification, incorporating Automatic Difficulty Filtering via an LLM-based predict-calibrate-select framework that leverages multi-dimensional difficulty metrics across five weighted dimensions to retain challenging problems while removing simplistic ones. The resulting MicroCoder dataset comprises tens of thousands of curated real competitive programming problems from diverse platforms, emphasizing recency and difficulty. Evaluations on strictly unseen LiveCodeBench demonstrate that MicroCoder achieves 3x larger performance gains within 300 training steps compared to widely-used baseline datasets of comparable size, with consistent advantages under both GRPO and its variant training algorithms. The MicroCoder dataset delivers obvious improvements on medium and hard problems across different model sizes, achieving up to 17.2% relative gains in overall performance where model capabilities are most stretched. These results validate that difficulty-aware data curation improves model performance on challenging tasks, providing multiple insights for dataset creation in code generation.