CodeContests+: Hochwertige Testfallgenerierung für Wettbewerbsprogrammierung

papers.abstract

Competitive Programming hat sich aufgrund seiner hohen Anforderungen an das logische Denken und der präzisen Rückmeldung zur Korrektheit zu einer Schlüsselaufgabe sowohl für das Training als auch für die Bewertung der Denkfähigkeiten von großen Sprachmodellen (LLMs) entwickelt. Allerdings sind, obwohl eine große Menge öffentlicher Problemdaten wie Problemstellungen und Lösungen verfügbar ist, die Testfälle dieser Probleme oft schwer zu beschaffen. Daher ist die Generierung von Testfällen eine notwendige Aufgabe für den Aufbau groß angelegter Datensätze, und die Qualität der Testfälle bestimmt direkt die Genauigkeit der Bewertung. In diesem Artikel stellen wir ein LLM-basiertes Agentensystem vor, das hochwertige Testfälle für Competitive-Programming-Probleme erstellt. Wir wenden dieses System auf den CodeContests-Datensatz an und schlagen eine neue Version mit verbesserten Testfällen vor, die CodeContests+ genannt wird. Wir haben die Qualität der Testfälle in CodeContests+ bewertet. Zunächst haben wir 1,72 Millionen Einreichungen mit Pass/Fail-Labels verwendet, um die Genauigkeit dieser Testfälle bei der Bewertung zu überprüfen. Die Ergebnisse zeigten, dass CodeContests+ eine deutlich höhere Genauigkeit als CodeContests erreicht, insbesondere mit einer deutlich höheren True-Positive-Rate (TPR). Anschließend bestätigten unsere Experimente im Bereich des Reinforcement Learning (RL) mit LLMs weiterhin, dass Verbesserungen in der Testfallqualität erhebliche Vorteile für RL bringen.

English

Competitive programming, due to its high reasoning difficulty and precise correctness feedback, has become a key task for both training and evaluating the reasoning capabilities of large language models (LLMs). However, while a large amount of public problem data, such as problem statements and solutions, is available, the test cases of these problems are often difficult to obtain. Therefore, test case generation is a necessary task for building large-scale datasets, and the quality of the test cases directly determines the accuracy of the evaluation. In this paper, we introduce an LLM-based agent system that creates high-quality test cases for competitive programming problems. We apply this system to the CodeContests dataset and propose a new version with improved test cases, named CodeContests+. We evaluated the quality of test cases in CodeContestsPlus. First, we used 1.72 million submissions with pass/fail labels to examine the accuracy of these test cases in evaluation. The results indicated that CodeContests+ achieves significantly higher accuracy than CodeContests, particularly with a notably higher True Positive Rate (TPR). Subsequently, our experiments in LLM Reinforcement Learning (RL) further confirmed that improvements in test case quality yield considerable advantages for RL.

CodeContests+: Hochwertige Testfallgenerierung für Wettbewerbsprogrammierung

CodeContests+: High-Quality Test Case Generation for Competitive Programming

papers.abstract

Support