Multi-LCB : extension de LiveCodeBench à plusieurs langages de programmation

Résumé

LiveCodeBench (LCB) est récemment devenu un benchmark largement adopté pour évaluer les grands modèles de langage (LLMs) sur des tâches de génération de code. En sélectionnant des problèmes de programmation compétitive, en ajoutant constamment de nouveaux problèmes à l'ensemble, et en les filtrant par date de publication, LCB fournit une évaluation tenant compte de la contamination et offre une vue d'ensemble des capacités de codage. Cependant, LCB reste limité à Python, laissant ouverte la question de savoir si les LLMs peuvent généraliser à travers les divers langages de programmation requis dans le génie logiciel réel. Nous présentons Multi-LCB, un benchmark pour évaluer les LLMs dans douze langages de programmation, y compris Python. Multi-LCB transforme les tâches Python du jeu de données LCB en tâches équivalentes dans d'autres langages, tout en préservant les contrôles de contamination et le protocole d'évaluation de LCB. Étant totalement compatible avec le format original de LCB, Multi-LCB suivra automatiquement les futures mises à jour de LCB, permettant une évaluation systématique des compétences de génération de code inter-langages et exigeant des modèles qu'ils maintiennent leurs performances bien au-delà de Python. Nous avons évalué 24 LLMs pour l'instruction et le raisonnement sur Multi-LCB, mettant en évidence un surapprentissage de Python, une contamination spécifique à certains langages, et des disparités importantes dans les performances multilingues. Nos résultats établissent Multi-LCB comme un nouveau benchmark rigoureux pour l'évaluation de code multi-langages de programmation, répondant directement à la limitation principale de LCB et exposant des lacunes critiques dans les capacités actuelles des LLMs.

English

LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides contamination-aware evaluation and offers a holistic view of coding capability. However, LCB remains restricted to Python, leaving open the question of whether LLMs can generalize across the diverse programming languages required in real-world software engineering. We introduce Multi-LCB, a benchmark for evaluating LLMs across twelve programming languages, including Python. Multi-LCB transforms Python tasks from the LCB dataset into equivalent tasks in other languages while preserving LCB's contamination controls and evaluation protocol. Because it is fully compatible with the original LCB format, Multi-LCB will automatically track future LCB updates, enabling systematic assessment of cross-language code generation competence and requiring models to sustain performance well beyond Python. We evaluated 24 LLMs for instruction and reasoning on Multi-LCB, uncovering evidence of Python overfitting, language-specific contamination, and substantial disparities in multilingual performance. Our results establish Multi-LCB as a rigorous new benchmark for multi-programming-language code evaluation, directly addressing LCB's primary limitation and exposing critical gaps in current LLM capabilities.