ChatPaper.aiChatPaper

Multi-LCB: Расширение LiveCodeBench на несколько языков программирования

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

June 18, 2026
Авторы: Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev
cs.AI

Аннотация

LiveCodeBench (LCB) недавно стал широко используемым бенчмарком для оценки больших языковых моделей (LLM) на задачах генерации кода. Благодаря подборке задач по спортивному программированию, постоянному добавлению новых задач в набор и их фильтрации по датам выпуска, LCB обеспечивает оценку с учетом контаминации и предоставляет целостное представление о способностях кодирования. Однако LCB по-прежнему ограничен языком Python, оставляя открытым вопрос о том, способны ли LLM обобщать свои навыки на различные языки программирования, необходимые в реальной программной инженерии. Мы представляем Multi-LCB — бенчмарк для оценки LLM на двенадцати языках программирования, включая Python. Multi-LCB преобразует задачи из набора данных LCB на Python в эквивалентные задачи на других языках, сохраняя при этом механизмы контроля контаминации и протокол оценки LCB. Благодаря полной совместимости с оригинальным форматом LCB, Multi-LCB будет автоматически отслеживать будущие обновления LCB, обеспечивая систематическую оценку компетентности в генерации кода на разных языках и требуя от моделей поддержания производительности далеко за пределами Python. Мы оценили 24 LLM для инструкций и рассуждений на Multi-LCB, выявив признаки переобучения на Python, контаминации, специфичной для языка, и существенные различия в многоязычной производительности. Наши результаты утверждают Multi-LCB как строгий новый бенчмарк для оценки кода на нескольких языках программирования, напрямую устраняя основное ограничение LCB и раскрывая критические пробелы в текущих возможностях LLM.
English
LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides contamination-aware evaluation and offers a holistic view of coding capability. However, LCB remains restricted to Python, leaving open the question of whether LLMs can generalize across the diverse programming languages required in real-world software engineering. We introduce Multi-LCB, a benchmark for evaluating LLMs across twelve programming languages, including Python. Multi-LCB transforms Python tasks from the LCB dataset into equivalent tasks in other languages while preserving LCB's contamination controls and evaluation protocol. Because it is fully compatible with the original LCB format, Multi-LCB will automatically track future LCB updates, enabling systematic assessment of cross-language code generation competence and requiring models to sustain performance well beyond Python. We evaluated 24 LLMs for instruction and reasoning on Multi-LCB, uncovering evidence of Python overfitting, language-specific contamination, and substantial disparities in multilingual performance. Our results establish Multi-LCB as a rigorous new benchmark for multi-programming-language code evaluation, directly addressing LCB's primary limitation and exposing critical gaps in current LLM capabilities.