CodeContests+: 경쟁 프로그래밍을 위한 고품질 테스트 케이스 생성
CodeContests+: High-Quality Test Case Generation for Competitive Programming
June 6, 2025
저자: Zihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen
cs.AI
초록
경쟁 프로그래밍은 높은 수준의 추론 난이도와 정확한 정답 피드백으로 인해 대규모 언어 모델(LLM)의 추론 능력을 훈련하고 평가하는 데 있어 핵심 과제로 자리 잡았습니다. 그러나 문제 설명과 해결책과 같은 공개된 문제 데이터는 풍부하지만, 이러한 문제의 테스트 케이스는 얻기 어려운 경우가 많습니다. 따라서 대규모 데이터셋을 구축하기 위해서는 테스트 케이스 생성이 필수적인 작업이며, 테스트 케이스의 품질은 평가의 정확도를 직접적으로 결정합니다. 본 논문에서는 경쟁 프로그래밍 문제를 위한 고품질 테스트 케이스를 생성하는 LLM 기반 에이전트 시스템을 소개합니다. 이 시스템을 CodeContests 데이터셋에 적용하고, 개선된 테스트 케이스를 포함한 새로운 버전인 CodeContests+를 제안합니다. CodeContests+의 테스트 케이스 품질을 평가하기 위해, 먼저 통과/실패 레이블이 달린 172만 건의 제출물을 사용하여 이러한 테스트 케이스의 평가 정확도를 검증했습니다. 그 결과, CodeContests+는 CodeContests에 비해 특히 높은 True Positive Rate(TPR)를 보이며 상당히 높은 정확도를 달성함을 확인했습니다. 이후 LLM 강화 학습(RL) 실험을 통해 테스트 케이스 품질의 개선이 RL에 상당한 이점을 제공한다는 점을 추가로 입증했습니다.
English
Competitive programming, due to its high reasoning difficulty and precise
correctness feedback, has become a key task for both training and evaluating
the reasoning capabilities of large language models (LLMs). However, while a
large amount of public problem data, such as problem statements and solutions,
is available, the test cases of these problems are often difficult to obtain.
Therefore, test case generation is a necessary task for building large-scale
datasets, and the quality of the test cases directly determines the accuracy of
the evaluation. In this paper, we introduce an LLM-based agent system that
creates high-quality test cases for competitive programming problems. We apply
this system to the CodeContests dataset and propose a new version with improved
test cases, named CodeContests+. We evaluated the quality of test cases in
CodeContestsPlus. First, we used 1.72 million submissions with pass/fail labels
to examine the accuracy of these test cases in evaluation. The results
indicated that CodeContests+ achieves significantly higher accuracy than
CodeContests, particularly with a notably higher True Positive Rate (TPR).
Subsequently, our experiments in LLM Reinforcement Learning (RL) further
confirmed that improvements in test case quality yield considerable advantages
for RL.