Multi-LCB: Estendendo o LiveCodeBench para Múltiplas Linguagens de Programação

Resumo

LiveCodeBench (LCB) tornou-se recentemente um referencial amplamente adotado para avaliar modelos de linguagem de grande escala (LLMs) em tarefas de geração de código. Ao selecionar problemas de programação competitiva, adicionar constantemente novos problemas ao conjunto e filtrá-los por datas de lançamento, o LCB fornece uma avaliação consciente de contaminação e oferece uma visão holística da capacidade de codificação. No entanto, o LCB permanece restrito ao Python, deixando em aberto a questão de saber se os LLMs conseguem generalizar entre as diversas linguagens de programação exigidas na engenharia de software do mundo real. Apresentamos o Multi-LCB, um referencial para avaliar LLMs em doze linguagens de programação, incluindo Python. O Multi-LCB transforma tarefas em Python do conjunto de dados LCB em tarefas equivalentes em outras linguagens, preservando ao mesmo tempo os controles de contaminação e o protocolo de avaliação do LCB. Por ser totalmente compatível com o formato original do LCB, o Multi-LCB acompanhará automaticamente futuras atualizações do LCB, permitindo uma avaliação sistemática da competência de geração de código multilíngue e exigindo que os modelos mantenham o desempenho muito além do Python. Avaliamos 24 LLMs para instrução e raciocínio no Multi-LCB, revelando evidências de superajuste ao Python, contaminação específica de linguagem e disparidades substanciais no desempenho multilíngue. Nossos resultados estabelecem o Multi-LCB como um novo referencial rigoroso para avaliação de código em múltiplas linguagens de programação, abordando diretamente a principal limitação do LCB e expondo lacunas críticas nas capacidades atuais dos LLMs.

English

LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding fresh problems to the set, and filtering them by release dates, LCB provides contamination-aware evaluation and offers a holistic view of coding capability. However, LCB remains restricted to Python, leaving open the question of whether LLMs can generalize across the diverse programming languages required in real-world software engineering. We introduce Multi-LCB, a benchmark for evaluating LLMs across twelve programming languages, including Python. Multi-LCB transforms Python tasks from the LCB dataset into equivalent tasks in other languages while preserving LCB's contamination controls and evaluation protocol. Because it is fully compatible with the original LCB format, Multi-LCB will automatically track future LCB updates, enabling systematic assessment of cross-language code generation competence and requiring models to sustain performance well beyond Python. We evaluated 24 LLMs for instruction and reasoning on Multi-LCB, uncovering evidence of Python overfitting, language-specific contamination, and substantial disparities in multilingual performance. Our results establish Multi-LCB as a rigorous new benchmark for multi-programming-language code evaluation, directly addressing LCB's primary limitation and exposing critical gaps in current LLM capabilities.