CodeEditorBench: Valutazione delle Capacità di Modifica del Codice nei Modelli Linguistici di Grande Dimensione

Abstract

I Large Language Model (LLM) per il codice si stanno evolvendo rapidamente, con l'editing del codice che emerge come una capacità critica. Introduciamo CodeEditorBench, un framework di valutazione progettato per valutare rigorosamente le prestazioni degli LLM nei task di editing del codice, inclusi debug, traduzione, rifinitura e cambio di requisiti. A differenza dei benchmark esistenti che si concentrano esclusivamente sulla generazione di codice, CodeEditorBench enfatizza scenari reali e aspetti pratici dello sviluppo software. Abbiamo curato diverse sfide e scenari di codifica da cinque fonti, coprendo vari linguaggi di programmazione, livelli di complessità e task di editing. La valutazione di 19 LLM rivela che i modelli closed-source (in particolare Gemini-Ultra e GPT-4) superano i modelli open-source in CodeEditorBench, evidenziando differenze nelle prestazioni dei modelli in base ai tipi di problema e alla sensibilità ai prompt. CodeEditorBench mira a catalizzare i progressi negli LLM fornendo una piattaforma robusta per valutare le capacità di editing del codice. Rilasceremo tutti i prompt e i dataset per consentire alla comunità di espandere il dataset e valutare gli LLM emergenti. Introducendo CodeEditorBench, contribuiamo all'avanzamento degli LLM nell'editing del codice e forniamo una risorsa preziosa per ricercatori e professionisti.

English

Large Language Models (LLMs) for code are rapidly evolving, with code editing emerging as a critical capability. We introduce CodeEditorBench, an evaluation framework designed to rigorously assess the performance of LLMs in code editing tasks, including debugging, translating, polishing, and requirement switching. Unlike existing benchmarks focusing solely on code generation, CodeEditorBench emphasizes real-world scenarios and practical aspects of software development. We curate diverse coding challenges and scenarios from five sources, covering various programming languages, complexity levels, and editing tasks. Evaluation of 19 LLMs reveals that closed-source models (particularly Gemini-Ultra and GPT-4), outperform open-source models in CodeEditorBench, highlighting differences in model performance based on problem types and prompt sensitivities. CodeEditorBench aims to catalyze advancements in LLMs by providing a robust platform for assessing code editing capabilities. We will release all prompts and datasets to enable the community to expand the dataset and benchmark emerging LLMs. By introducing CodeEditorBench, we contribute to the advancement of LLMs in code editing and provide a valuable resource for researchers and practitioners.

CodeEditorBench: Valutazione delle Capacità di Modifica del Codice nei Modelli Linguistici di Grande Dimensione

CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

Abstract

Support