CodeArena: Eine kollektive Evaluierungsplattform für die Code-Generierung durch LLMs

papers.abstract

Große Sprachmodelle (LLMs) haben die Code-Generierung revolutioniert, indem sie ihr außergewöhnliches Verständnis von natürlicher Sprache und Programmsyntax synergistisch nutzen, wodurch die Produktivität von Entwicklern erheblich gesteigert wurde. Diese Fortschritte haben zahlreiche Bemühungen angeregt, ihre Programmierfähigkeiten quantitativ zu bewerten. Dennoch behindern anhaltende Herausforderungen wie Benchmark-Leakage, Datenverlust und begrenzte Systemzugänglichkeit eine zeitnahe und genaue Bewertung. Um diese Einschränkungen zu überwinden, stellen wir CodeArena vor, ein Online-Bewertungsframework, das speziell für die Code-Generierung durch LLMs entwickelt wurde. Die zentrale Innovation ist ein kollektives Bewertungsmechanismus, der die individuellen Modellbewertungen dynamisch anhand der Gesamtleistung aller teilnehmenden Modelle neu kalibriert und dadurch Bewertungsverzerrungen durch weit verbreitete Benchmark-Leakage mildert. Darüber hinaus gewährleistet CodeArena den offenen Zugang zu allen eingereichten Lösungen und Testfällen und bietet automatisierungsfreundliche APIs, um den Code-Bewertungsprozess zu optimieren. Unsere Hauptbeiträge sind: (1) ein kollektives Bewertungssystem für unvoreingenommene Bewertungen, (2) ein öffentliches Repository von Lösungen und Testfällen sowie (3) automatisierungsbereite APIs für nahtlose Integration.

English

Large Language Models (LLMs) have reshaped code generation by synergizing their exceptional comprehension of natural language and programming syntax, thereby substantially boosting developer productivity. These advancements have prompted numerous efforts to quantitatively evaluate their coding capabilities. However, persistent challenges, such as benchmark leakage, data dissipation, and limited system accessibility, continue to impede a timely and accurate assessment. To address these limitations, we introduce CodeArena, an online evaluation framework tailored for LLM code generation. The key innovation is a collective evaluation mechanism, which dynamically recalibrates individual model scores based on the holistic performance of all participating models, mitigating score biases caused by widespread benchmark leakage. In addition, CodeArena ensures open access to all submitted solutions and test cases and provides automation-friendly APIs to streamline the code evaluation workflow. Our main contributions are: (1) a collective evaluation system for unbiased assessment, (2) a public repository of solutions and test cases, and (3) automation-ready APIs for seamless integration.

CodeArena: Eine kollektive Evaluierungsplattform für die Code-Generierung durch LLMs

CodeArena: A Collective Evaluation Platform for LLM Code Generation

papers.abstract

Support