CodeArena: Uma Plataforma de Avaliação Coletiva para Geração de Código por LLMs

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram a geração de código ao combinar sua excepcional compreensão de linguagem natural e sintaxe de programação, aumentando substancialmente a produtividade dos desenvolvedores. Esses avanços impulsionaram diversos esforços para avaliar quantitativamente suas capacidades de codificação. No entanto, desafios persistentes, como vazamento de benchmarks, dissipação de dados e acesso limitado ao sistema, continuam a dificultar uma avaliação precisa e oportuna. Para enfrentar essas limitações, apresentamos o CodeArena, uma estrutura de avaliação online projetada para a geração de código por LLMs. A principal inovação é um mecanismo de avaliação coletiva, que recalibra dinamicamente as pontuações individuais dos modelos com base no desempenho geral de todos os modelos participantes, mitigando vieses de pontuação causados pelo vazamento generalizado de benchmarks. Além disso, o CodeArena garante acesso aberto a todas as soluções e casos de teste submetidos e oferece APIs amigáveis à automação para agilizar o fluxo de trabalho de avaliação de código. Nossas principais contribuições são: (1) um sistema de avaliação coletiva para avaliação imparcial, (2) um repositório público de soluções e casos de teste, e (3) APIs prontas para automação para integração contínua.

English

Large Language Models (LLMs) have reshaped code generation by synergizing their exceptional comprehension of natural language and programming syntax, thereby substantially boosting developer productivity. These advancements have prompted numerous efforts to quantitatively evaluate their coding capabilities. However, persistent challenges, such as benchmark leakage, data dissipation, and limited system accessibility, continue to impede a timely and accurate assessment. To address these limitations, we introduce CodeArena, an online evaluation framework tailored for LLM code generation. The key innovation is a collective evaluation mechanism, which dynamically recalibrates individual model scores based on the holistic performance of all participating models, mitigating score biases caused by widespread benchmark leakage. In addition, CodeArena ensures open access to all submitted solutions and test cases and provides automation-friendly APIs to streamline the code evaluation workflow. Our main contributions are: (1) a collective evaluation system for unbiased assessment, (2) a public repository of solutions and test cases, and (3) automation-ready APIs for seamless integration.

CodeArena: Uma Plataforma de Avaliação Coletiva para Geração de Código por LLMs

CodeArena: A Collective Evaluation Platform for LLM Code Generation

Resumo

Summary

Support

Support