CodeContests+: Generazione di Test Case di Alta Qualità per la Programmazione Competitiva
CodeContests+: High-Quality Test Case Generation for Competitive Programming
June 6, 2025
Autori: Zihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen
cs.AI
Abstract
La programmazione competitiva, grazie alla sua elevata difficoltà di ragionamento e al feedback preciso sulla correttezza, è diventata un compito chiave sia per l'addestramento che per la valutazione delle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, sebbene sia disponibile una grande quantità di dati pubblici sui problemi, come descrizioni e soluzioni, i casi di test di questi problemi sono spesso difficili da ottenere. Pertanto, la generazione di casi di test è un compito necessario per la costruzione di dataset su larga scala, e la qualità dei casi di test determina direttamente l'accuratezza della valutazione. In questo articolo, introduciamo un sistema basato su agenti LLM che crea casi di test di alta qualità per problemi di programmazione competitiva. Applichiamo questo sistema al dataset CodeContests e proponiamo una nuova versione con casi di test migliorati, denominata CodeContests+. Abbiamo valutato la qualità dei casi di test in CodeContestsPlus. In primo luogo, abbiamo utilizzato 1,72 milioni di invii con etichette di passaggio/fallimento per esaminare l'accuratezza di questi casi di test nella valutazione. I risultati hanno indicato che CodeContests+ raggiunge un'accuratezza significativamente più elevata rispetto a CodeContests, in particolare con un tasso di veri positivi (TPR) notevolmente più alto. Successivamente, i nostri esperimenti nel Reinforcement Learning (RL) con LLM hanno ulteriormente confermato che i miglioramenti nella qualità dei casi di test apportano vantaggi considerevoli per l'RL.
English
Competitive programming, due to its high reasoning difficulty and precise
correctness feedback, has become a key task for both training and evaluating
the reasoning capabilities of large language models (LLMs). However, while a
large amount of public problem data, such as problem statements and solutions,
is available, the test cases of these problems are often difficult to obtain.
Therefore, test case generation is a necessary task for building large-scale
datasets, and the quality of the test cases directly determines the accuracy of
the evaluation. In this paper, we introduce an LLM-based agent system that
creates high-quality test cases for competitive programming problems. We apply
this system to the CodeContests dataset and propose a new version with improved
test cases, named CodeContests+. We evaluated the quality of test cases in
CodeContestsPlus. First, we used 1.72 million submissions with pass/fail labels
to examine the accuracy of these test cases in evaluation. The results
indicated that CodeContests+ achieves significantly higher accuracy than
CodeContests, particularly with a notably higher True Positive Rate (TPR).
Subsequently, our experiments in LLM Reinforcement Learning (RL) further
confirmed that improvements in test case quality yield considerable advantages
for RL.