CodeContests+: Hochwertige Testfallgenerierung für Wettbewerbsprogrammierung
CodeContests+: High-Quality Test Case Generation for Competitive Programming
June 6, 2025
Autoren: Zihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen
cs.AI
Zusammenfassung
Competitive Programming hat sich aufgrund seiner hohen Anforderungen an das logische Denken und der präzisen Rückmeldung zur Korrektheit zu einer Schlüsselaufgabe sowohl für das Training als auch für die Bewertung der Denkfähigkeiten von großen Sprachmodellen (LLMs) entwickelt. Allerdings sind, obwohl eine große Menge öffentlicher Problemdaten wie Problemstellungen und Lösungen verfügbar ist, die Testfälle dieser Probleme oft schwer zu beschaffen. Daher ist die Generierung von Testfällen eine notwendige Aufgabe für den Aufbau groß angelegter Datensätze, und die Qualität der Testfälle bestimmt direkt die Genauigkeit der Bewertung. In diesem Artikel stellen wir ein LLM-basiertes Agentensystem vor, das hochwertige Testfälle für Competitive-Programming-Probleme erstellt. Wir wenden dieses System auf den CodeContests-Datensatz an und schlagen eine neue Version mit verbesserten Testfällen vor, die CodeContests+ genannt wird. Wir haben die Qualität der Testfälle in CodeContests+ bewertet. Zunächst haben wir 1,72 Millionen Einreichungen mit Pass/Fail-Labels verwendet, um die Genauigkeit dieser Testfälle bei der Bewertung zu überprüfen. Die Ergebnisse zeigten, dass CodeContests+ eine deutlich höhere Genauigkeit als CodeContests erreicht, insbesondere mit einer deutlich höheren True-Positive-Rate (TPR). Anschließend bestätigten unsere Experimente im Bereich des Reinforcement Learning (RL) mit LLMs weiterhin, dass Verbesserungen in der Testfallqualität erhebliche Vorteile für RL bringen.
English
Competitive programming, due to its high reasoning difficulty and precise
correctness feedback, has become a key task for both training and evaluating
the reasoning capabilities of large language models (LLMs). However, while a
large amount of public problem data, such as problem statements and solutions,
is available, the test cases of these problems are often difficult to obtain.
Therefore, test case generation is a necessary task for building large-scale
datasets, and the quality of the test cases directly determines the accuracy of
the evaluation. In this paper, we introduce an LLM-based agent system that
creates high-quality test cases for competitive programming problems. We apply
this system to the CodeContests dataset and propose a new version with improved
test cases, named CodeContests+. We evaluated the quality of test cases in
CodeContestsPlus. First, we used 1.72 million submissions with pass/fail labels
to examine the accuracy of these test cases in evaluation. The results
indicated that CodeContests+ achieves significantly higher accuracy than
CodeContests, particularly with a notably higher True Positive Rate (TPR).
Subsequently, our experiments in LLM Reinforcement Learning (RL) further
confirmed that improvements in test case quality yield considerable advantages
for RL.