Multi-LCB: Erweiterung von LiveCodeBench auf mehrere Programmiersprachen

Zusammenfassung

LiveCodeBench (LCB) hat sich in jüngster Zeit zu einem weit verbreiteten Benchmark zur Bewertung großer Sprachmodelle (LLMs) bei Code-Generierungsaufgaben entwickelt. Durch die Zusammenstellung von Wettbewerbsprogrammieraufgaben, die kontinuierliche Ergänzung neuer Aufgaben in den Datensatz und deren Filterung nach Veröffentlichungsdaten bietet LCB eine kontaminationsbewusste Bewertung und einen ganzheitlichen Überblick über die Programmierfähigkeiten. LCB bleibt jedoch auf Python beschränkt, sodass die Frage offen bleibt, ob LLMs in der Lage sind, sich über die vielfältigen Programmiersprachen zu verallgemeinern, die in der realen Softwareentwicklung erforderlich sind. Wir führen Multi-LCB ein, einen Benchmark zur Bewertung von LLMs über zwölf Programmiersprachen hinweg, einschließlich Python. Multi-LCB überführt Python-Aufgaben aus dem LCB-Datensatz in äquivalente Aufgaben in anderen Sprachen, während die Kontaminationskontrollen und das Bewertungsprotokoll von LCB erhalten bleiben. Da Multi-LCB vollständig mit dem ursprünglichen LCB-Format kompatibel ist, wird es automatisch zukünftige LCB-Updates verfolgen, was eine systematische Bewertung der sprachübergreifenden Code-Generierungskompetenz ermöglicht und von den Modellen verlangt, die Leistung weit über Python hinaus aufrechtzuerhalten. Wir haben 24 LLMs auf Anweisungs- und Reasoning-Fähigkeiten mit Multi-LCB evaluiert und dabei Hinweise auf Python-Overfitting, sprachspezifische Kontamination sowie erhebliche Unterschiede in der mehrsprachigen Leistung aufgedeckt. Unsere Ergebnisse etablieren Multi-LCB als strengen neuen Benchmark für die Code-Bewertung über mehrere Programmiersprachen hinweg, der direkt die primäre Einschränkung von LCB adressiert und kritische Lücken in den aktuellen LLM-Fähigkeiten offenlegt.

English

LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides contamination-aware evaluation and offers a holistic view of coding capability. However, LCB remains restricted to Python, leaving open the question of whether LLMs can generalize across the diverse programming languages required in real-world software engineering. We introduce Multi-LCB, a benchmark for evaluating LLMs across twelve programming languages, including Python. Multi-LCB transforms Python tasks from the LCB dataset into equivalent tasks in other languages while preserving LCB's contamination controls and evaluation protocol. Because it is fully compatible with the original LCB format, Multi-LCB will automatically track future LCB updates, enabling systematic assessment of cross-language code generation competence and requiring models to sustain performance well beyond Python. We evaluated 24 LLMs for instruction and reasoning on Multi-LCB, uncovering evidence of Python overfitting, language-specific contamination, and substantial disparities in multilingual performance. Our results establish Multi-LCB as a rigorous new benchmark for multi-programming-language code evaluation, directly addressing LCB's primary limitation and exposing critical gaps in current LLM capabilities.