CodeArena : Une plateforme d'évaluation collective pour la génération de code par LLM
CodeArena: A Collective Evaluation Platform for LLM Code Generation
March 3, 2025
Auteurs: Mingzhe Du, Anh Tuan Luu, Bin Ji, Xiaobao Wu, Dong Huang, Terry Yue Zhuo, Qian Liu, See-Kiong Ng
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont transformé la génération de code en combinant leur compréhension exceptionnelle du langage naturel et de la syntaxe de programmation, augmentant ainsi considérablement la productivité des développeurs. Ces avancées ont suscité de nombreux efforts pour évaluer quantitativement leurs capacités en matière de codage. Cependant, des défis persistants, tels que la fuite de benchmarks, la dissipation des données et l'accessibilité limitée des systèmes, continuent d'entraver une évaluation rapide et précise. Pour répondre à ces limitations, nous présentons CodeArena, un cadre d'évaluation en ligne conçu pour la génération de code par les LLMs. L'innovation clé réside dans un mécanisme d'évaluation collective, qui recalibre dynamiquement les scores individuels des modèles en fonction de la performance globale de tous les modèles participants, atténuant ainsi les biais de score causés par la fuite généralisée des benchmarks. De plus, CodeArena garantit un accès ouvert à toutes les solutions soumises et aux cas de test, et fournit des API adaptées à l'automatisation pour simplifier le flux de travail d'évaluation du code. Nos principales contributions sont : (1) un système d'évaluation collective pour une évaluation impartiale, (2) un référentiel public de solutions et de cas de test, et (3) des API prêtes pour l'automatisation pour une intégration transparente.
English
Large Language Models (LLMs) have reshaped code generation by synergizing
their exceptional comprehension of natural language and programming syntax,
thereby substantially boosting developer productivity. These advancements have
prompted numerous efforts to quantitatively evaluate their coding capabilities.
However, persistent challenges, such as benchmark leakage, data dissipation,
and limited system accessibility, continue to impede a timely and accurate
assessment. To address these limitations, we introduce CodeArena, an online
evaluation framework tailored for LLM code generation. The key innovation is a
collective evaluation mechanism, which dynamically recalibrates individual
model scores based on the holistic performance of all participating models,
mitigating score biases caused by widespread benchmark leakage. In addition,
CodeArena ensures open access to all submitted solutions and test cases and
provides automation-friendly APIs to streamline the code evaluation workflow.
Our main contributions are: (1) a collective evaluation system for unbiased
assessment, (2) a public repository of solutions and test cases, and (3)
automation-ready APIs for seamless integration.Summary
AI-Generated Summary