CodeArena: Eine kollektive Evaluierungsplattform für die Code-Generierung durch LLMs
CodeArena: A Collective Evaluation Platform for LLM Code Generation
March 3, 2025
Autoren: Mingzhe Du, Anh Tuan Luu, Bin Ji, Xiaobao Wu, Dong Huang, Terry Yue Zhuo, Qian Liu, See-Kiong Ng
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben die Code-Generierung revolutioniert, indem sie ihr außergewöhnliches Verständnis von natürlicher Sprache und Programmsyntax synergistisch nutzen, wodurch die Produktivität von Entwicklern erheblich gesteigert wurde. Diese Fortschritte haben zahlreiche Bemühungen angeregt, ihre Programmierfähigkeiten quantitativ zu bewerten. Dennoch behindern anhaltende Herausforderungen wie Benchmark-Leakage, Datenverlust und begrenzte Systemzugänglichkeit eine zeitnahe und genaue Bewertung. Um diese Einschränkungen zu überwinden, stellen wir CodeArena vor, ein Online-Bewertungsframework, das speziell für die Code-Generierung durch LLMs entwickelt wurde. Die zentrale Innovation ist ein kollektives Bewertungsmechanismus, der die individuellen Modellbewertungen dynamisch anhand der Gesamtleistung aller teilnehmenden Modelle neu kalibriert und dadurch Bewertungsverzerrungen durch weit verbreitete Benchmark-Leakage mildert. Darüber hinaus gewährleistet CodeArena den offenen Zugang zu allen eingereichten Lösungen und Testfällen und bietet automatisierungsfreundliche APIs, um den Code-Bewertungsprozess zu optimieren. Unsere Hauptbeiträge sind: (1) ein kollektives Bewertungssystem für unvoreingenommene Bewertungen, (2) ein öffentliches Repository von Lösungen und Testfällen sowie (3) automatisierungsbereite APIs für nahtlose Integration.
English
Large Language Models (LLMs) have reshaped code generation by synergizing
their exceptional comprehension of natural language and programming syntax,
thereby substantially boosting developer productivity. These advancements have
prompted numerous efforts to quantitatively evaluate their coding capabilities.
However, persistent challenges, such as benchmark leakage, data dissipation,
and limited system accessibility, continue to impede a timely and accurate
assessment. To address these limitations, we introduce CodeArena, an online
evaluation framework tailored for LLM code generation. The key innovation is a
collective evaluation mechanism, which dynamically recalibrates individual
model scores based on the holistic performance of all participating models,
mitigating score biases caused by widespread benchmark leakage. In addition,
CodeArena ensures open access to all submitted solutions and test cases and
provides automation-friendly APIs to streamline the code evaluation workflow.
Our main contributions are: (1) a collective evaluation system for unbiased
assessment, (2) a public repository of solutions and test cases, and (3)
automation-ready APIs for seamless integration.Summary
AI-Generated Summary