Multi-LCB: extensión de LiveCodeBench a múltiples lenguajes de programación

Resumen

LiveCodeBench (LCB) se ha convertido recientemente en un punto de referencia ampliamente adoptado para evaluar modelos de lenguaje de gran escala (LLMs) en tareas de generación de código. Al seleccionar problemas de programación competitiva, agregar constantemente problemas nuevos al conjunto y filtrarlos según sus fechas de publicación, LCB proporciona una evaluación consciente de la contaminación y ofrece una visión integral de la capacidad de codificación. Sin embargo, LCB sigue limitado a Python, dejando abierta la cuestión de si los LLMs pueden generalizar a través de los diversos lenguajes de programación requeridos en la ingeniería de software del mundo real. Introducimos Multi-LCB, un punto de referencia para evaluar LLMs en doce lenguajes de programación, incluido Python. Multi-LCB transforma las tareas de Python del conjunto de datos de LCB en tareas equivalentes en otros lenguajes, manteniendo los controles de contaminación y el protocolo de evaluación de LCB. Debido a que es completamente compatible con el formato original de LCB, Multi-LCB seguirá automáticamente las futuras actualizaciones de LCB, permitiendo una evaluación sistemática de la competencia en generación de código multilingüe y exigiendo que los modelos mantengan un rendimiento más allá de Python. Evaluamos 24 LLMs para instrucción y razonamiento en Multi-LCB, descubriendo evidencia de sobreajuste a Python, contaminación específica del lenguaje y disparidades sustanciales en el rendimiento multilingüe. Nuestros resultados establecen a Multi-LCB como un nuevo punto de referencia riguroso para la evaluación de código en múltiples lenguajes de programación, abordando directamente la principal limitación de LCB y exponiendo brechas críticas en las capacidades actuales de los LLMs.

English

LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides contamination-aware evaluation and offers a holistic view of coding capability. However, LCB remains restricted to Python, leaving open the question of whether LLMs can generalize across the diverse programming languages required in real-world software engineering. We introduce Multi-LCB, a benchmark for evaluating LLMs across twelve programming languages, including Python. Multi-LCB transforms Python tasks from the LCB dataset into equivalent tasks in other languages while preserving LCB's contamination controls and evaluation protocol. Because it is fully compatible with the original LCB format, Multi-LCB will automatically track future LCB updates, enabling systematic assessment of cross-language code generation competence and requiring models to sustain performance well beyond Python. We evaluated 24 LLMs for instruction and reasoning on Multi-LCB, uncovering evidence of Python overfitting, language-specific contamination, and substantial disparities in multilingual performance. Our results establish Multi-LCB as a rigorous new benchmark for multi-programming-language code evaluation, directly addressing LCB's primary limitation and exposing critical gaps in current LLM capabilities.