CodeArena: Uma Plataforma de Avaliação Coletiva para Geração de Código por LLMs
CodeArena: A Collective Evaluation Platform for LLM Code Generation
March 3, 2025
Autores: Mingzhe Du, Anh Tuan Luu, Bin Ji, Xiaobao Wu, Dong Huang, Terry Yue Zhuo, Qian Liu, See-Kiong Ng
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram a geração de código ao combinar sua excepcional compreensão de linguagem natural e sintaxe de programação, aumentando substancialmente a produtividade dos desenvolvedores. Esses avanços impulsionaram diversos esforços para avaliar quantitativamente suas capacidades de codificação. No entanto, desafios persistentes, como vazamento de benchmarks, dissipação de dados e acesso limitado ao sistema, continuam a dificultar uma avaliação precisa e oportuna. Para enfrentar essas limitações, apresentamos o CodeArena, uma estrutura de avaliação online projetada para a geração de código por LLMs. A principal inovação é um mecanismo de avaliação coletiva, que recalibra dinamicamente as pontuações individuais dos modelos com base no desempenho geral de todos os modelos participantes, mitigando vieses de pontuação causados pelo vazamento generalizado de benchmarks. Além disso, o CodeArena garante acesso aberto a todas as soluções e casos de teste submetidos e oferece APIs amigáveis à automação para agilizar o fluxo de trabalho de avaliação de código. Nossas principais contribuições são: (1) um sistema de avaliação coletiva para avaliação imparcial, (2) um repositório público de soluções e casos de teste, e (3) APIs prontas para automação para integração contínua.
English
Large Language Models (LLMs) have reshaped code generation by synergizing
their exceptional comprehension of natural language and programming syntax,
thereby substantially boosting developer productivity. These advancements have
prompted numerous efforts to quantitatively evaluate their coding capabilities.
However, persistent challenges, such as benchmark leakage, data dissipation,
and limited system accessibility, continue to impede a timely and accurate
assessment. To address these limitations, we introduce CodeArena, an online
evaluation framework tailored for LLM code generation. The key innovation is a
collective evaluation mechanism, which dynamically recalibrates individual
model scores based on the holistic performance of all participating models,
mitigating score biases caused by widespread benchmark leakage. In addition,
CodeArena ensures open access to all submitted solutions and test cases and
provides automation-friendly APIs to streamline the code evaluation workflow.
Our main contributions are: (1) a collective evaluation system for unbiased
assessment, (2) a public repository of solutions and test cases, and (3)
automation-ready APIs for seamless integration.Summary
AI-Generated Summary