CodeContests+: Generazione di Test Case di Alta Qualità per la Programmazione Competitiva

Abstract

La programmazione competitiva, grazie alla sua elevata difficoltà di ragionamento e al feedback preciso sulla correttezza, è diventata un compito chiave sia per l'addestramento che per la valutazione delle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, sebbene sia disponibile una grande quantità di dati pubblici sui problemi, come descrizioni e soluzioni, i casi di test di questi problemi sono spesso difficili da ottenere. Pertanto, la generazione di casi di test è un compito necessario per la costruzione di dataset su larga scala, e la qualità dei casi di test determina direttamente l'accuratezza della valutazione. In questo articolo, introduciamo un sistema basato su agenti LLM che crea casi di test di alta qualità per problemi di programmazione competitiva. Applichiamo questo sistema al dataset CodeContests e proponiamo una nuova versione con casi di test migliorati, denominata CodeContests+. Abbiamo valutato la qualità dei casi di test in CodeContestsPlus. In primo luogo, abbiamo utilizzato 1,72 milioni di invii con etichette di passaggio/fallimento per esaminare l'accuratezza di questi casi di test nella valutazione. I risultati hanno indicato che CodeContests+ raggiunge un'accuratezza significativamente più elevata rispetto a CodeContests, in particolare con un tasso di veri positivi (TPR) notevolmente più alto. Successivamente, i nostri esperimenti nel Reinforcement Learning (RL) con LLM hanno ulteriormente confermato che i miglioramenti nella qualità dei casi di test apportano vantaggi considerevoli per l'RL.

English

Competitive programming, due to its high reasoning difficulty and precise correctness feedback, has become a key task for both training and evaluating the reasoning capabilities of large language models (LLMs). However, while a large amount of public problem data, such as problem statements and solutions, is available, the test cases of these problems are often difficult to obtain. Therefore, test case generation is a necessary task for building large-scale datasets, and the quality of the test cases directly determines the accuracy of the evaluation. In this paper, we introduce an LLM-based agent system that creates high-quality test cases for competitive programming problems. We apply this system to the CodeContests dataset and propose a new version with improved test cases, named CodeContests+. We evaluated the quality of test cases in CodeContestsPlus. First, we used 1.72 million submissions with pass/fail labels to examine the accuracy of these test cases in evaluation. The results indicated that CodeContests+ achieves significantly higher accuracy than CodeContests, particularly with a notably higher True Positive Rate (TPR). Subsequently, our experiments in LLM Reinforcement Learning (RL) further confirmed that improvements in test case quality yield considerable advantages for RL.

CodeContests+: Generazione di Test Case di Alta Qualità per la Programmazione Competitiva

CodeContests+: High-Quality Test Case Generation for Competitive Programming

Abstract

Support