ChatPaper.aiChatPaper

데이터 난이도 확장: 신규 및 도전적 문제에 대한 강화 학습을 통한 코딩 모델 개선

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

March 8, 2026
저자: Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei
cs.AI

초록

차세대 코드 생성 모델의 훈련에는 고품질 데이터셋이 필요하지만, 기존 데이터셋은 난이도 불균형, 형식 불일치, 데이터 품질 문제에 직면해 있습니다. 우리는 체계적인 데이터 처리와 난이도 스케일링을 통해 이러한 과제를 해결합니다. 본 연구는 수집, 처리, 필터링, 검증의 4단계로 구성된 데이터 처리 프레임워크를 도입하며, LLM 기반 예측-보정-선택 프레임워크를 통한 자동 난이도 필터링을 통합했습니다. 이는 5개의 가중 치수를 가진 다차원 난이도 지표를 활용하여 단순한 문제는 제거하면서도 도전적인 문제는 보존합니다. 그 결과 생성된 MicroCoder 데이터셋은 다양한 플랫폴에서 수집된 수만 개의 정제된 실전 경쟁 프로그래밍 문제로 구성되며, 최신성과 난이도에 중점을 둡니다. 엄격하게 공개되지 않은 LiveCodeBench에 대한 평가 결과, MicroCoder는 유사한 규모의 널리 사용되는 기준 데이터셋 대비 300회의 훈련 스텝 내에서 3배 더 큰 성능 향상을 달성했으며, GRPO 및 그 변형 훈련 알고리즘 모두에서 일관된 이점을 보였습니다. MicroCoder 데이터셋은 다양한 모델 크기에서 중간 및 어려운 문제에 대해 뚜렷한 개선을 제공하며, 모델 능력이 가장 극한으로 요구되는 영역에서 전체 성능 기준 최대 17.2%의 상대적 향상을 달성했습니다. 이러한 결과는 난이도 인식 데이터 큐레이션이 도전적인 과제에 대한 모델 성능을 향상시킴을 검증하며, 코드 생성 분야의 데이터셋 구축에 여러 통찰을 제공합니다.
English
Training next-generation code generation models requires high-quality datasets, yet existing datasets face difficulty imbalance, format inconsistency, and data quality problems. We address these challenges through systematic data processing and difficulty scaling. We introduce a four-stage Data Processing Framework encompassing collection, processing, filtering, and verification, incorporating Automatic Difficulty Filtering via an LLM-based predict-calibrate-select framework that leverages multi-dimensional difficulty metrics across five weighted dimensions to retain challenging problems while removing simplistic ones. The resulting MicroCoder dataset comprises tens of thousands of curated real competitive programming problems from diverse platforms, emphasizing recency and difficulty. Evaluations on strictly unseen LiveCodeBench demonstrate that MicroCoder achieves 3x larger performance gains within 300 training steps compared to widely-used baseline datasets of comparable size, with consistent advantages under both GRPO and its variant training algorithms. The MicroCoder dataset delivers obvious improvements on medium and hard problems across different model sizes, achieving up to 17.2% relative gains in overall performance where model capabilities are most stretched. These results validate that difficulty-aware data curation improves model performance on challenging tasks, providing multiple insights for dataset creation in code generation.
PDF52March 16, 2026