ChatPaper.aiChatPaper

CodeContests+: Generación de Casos de Prueba de Alta Calidad para Programación Competitiva

CodeContests+: High-Quality Test Case Generation for Competitive Programming

June 6, 2025
Autores: Zihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen
cs.AI

Resumen

La programación competitiva, debido a su alta dificultad de razonamiento y retroalimentación precisa sobre la corrección, se ha convertido en una tarea clave tanto para entrenar como para evaluar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Sin embargo, aunque existe una gran cantidad de datos públicos de problemas, como enunciados y soluciones, los casos de prueba de estos problemas suelen ser difíciles de obtener. Por lo tanto, la generación de casos de prueba es una tarea necesaria para construir conjuntos de datos a gran escala, y la calidad de estos casos determina directamente la precisión de la evaluación. En este artículo, presentamos un sistema basado en agentes LLM que genera casos de prueba de alta calidad para problemas de programación competitiva. Aplicamos este sistema al conjunto de datos CodeContests y proponemos una nueva versión con casos de prueba mejorados, denominada CodeContests+. Evaluamos la calidad de los casos de prueba en CodeContests+. Primero, utilizamos 1,72 millones de envíos con etiquetas de aprobado/reprobado para examinar la precisión de estos casos de prueba en la evaluación. Los resultados indicaron que CodeContests+ logra una precisión significativamente mayor que CodeContests, especialmente con una tasa de verdaderos positivos (TVP) notablemente más alta. Posteriormente, nuestros experimentos en Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con LLM confirmaron que las mejoras en la calidad de los casos de prueba ofrecen ventajas considerables para el RL.
English
Competitive programming, due to its high reasoning difficulty and precise correctness feedback, has become a key task for both training and evaluating the reasoning capabilities of large language models (LLMs). However, while a large amount of public problem data, such as problem statements and solutions, is available, the test cases of these problems are often difficult to obtain. Therefore, test case generation is a necessary task for building large-scale datasets, and the quality of the test cases directly determines the accuracy of the evaluation. In this paper, we introduce an LLM-based agent system that creates high-quality test cases for competitive programming problems. We apply this system to the CodeContests dataset and propose a new version with improved test cases, named CodeContests+. We evaluated the quality of test cases in CodeContestsPlus. First, we used 1.72 million submissions with pass/fail labels to examine the accuracy of these test cases in evaluation. The results indicated that CodeContests+ achieves significantly higher accuracy than CodeContests, particularly with a notably higher True Positive Rate (TPR). Subsequently, our experiments in LLM Reinforcement Learning (RL) further confirmed that improvements in test case quality yield considerable advantages for RL.
PDF82June 9, 2025