BigCodeBench: Valutazione della Generazione di Codice con Chiamate di Funzioni Diversificate e Istruzioni Complesse

Abstract

L'ingegneria del software automatizzata è stata notevolmente potenziata dai recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) per la programmazione. Sebbene gli attuali benchmark abbiano dimostrato che gli LLM possono eseguire varie attività di ingegneria del software come sviluppatori umani, la maggior parte delle loro valutazioni è limitata a compiti algoritmici brevi e autoconclusivi. Risolvere problemi di programmazione complessi e pratici richiede la capacità di utilizzare diverse chiamate di funzione come strumenti per implementare in modo efficiente funzionalità come l'analisi dei dati e lo sviluppo web. Inoltre, l'uso di più strumenti per risolvere un compito richiede un ragionamento composizionale, comprendendo accuratamente istruzioni complesse. Soddisfare entrambe queste caratteristiche può rappresentare una grande sfida per gli LLM. Per valutare quanto bene gli LLM possano risolvere problemi di programmazione complessi e pratici, introduciamo Bench, un benchmark che mette alla prova gli LLM nell'invocare più chiamate di funzione come strumenti da 139 librerie e 7 domini per 1.140 compiti di programmazione granulari. Per valutare rigorosamente gli LLM, ogni compito di programmazione comprende 5.6 casi di test con una copertura media dei rami del 99%. Inoltre, proponiamo una variante orientata al linguaggio naturale di Bench, Benchi, che trasforma automaticamente le docstring originali in brevi istruzioni contenenti solo le informazioni essenziali. La nostra valutazione estesa di 60 LLM mostra che gli LLM non sono ancora in grado di seguire istruzioni complesse per utilizzare con precisione le chiamate di funzione, con punteggi fino al 60%, significativamente inferiori rispetto alle prestazioni umane del 97%. I risultati sottolineano la necessità di ulteriori progressi in questo ambito.

English

Automated software engineering has been greatly empowered by the recent advances in Large Language Models (LLMs) for programming. While current benchmarks have shown that LLMs can perform various software engineering tasks like human developers, the majority of their evaluations are limited to short and self-contained algorithmic tasks. Solving challenging and practical programming tasks requires the capability of utilizing diverse function calls as tools to efficiently implement functionalities like data analysis and web development. In addition, using multiple tools to solve a task needs compositional reasoning by accurately understanding complex instructions. Fulfilling both of these characteristics can pose a great challenge for LLMs. To assess how well LLMs can solve challenging and practical programming tasks, we introduce Bench, a benchmark that challenges LLMs to invoke multiple function calls as tools from 139 libraries and 7 domains for 1,140 fine-grained programming tasks. To evaluate LLMs rigorously, each programming task encompasses 5.6 test cases with an average branch coverage of 99%. In addition, we propose a natural-language-oriented variant of Bench, Benchi, that automatically transforms the original docstrings into short instructions only with essential information. Our extensive evaluation of 60 LLMs shows that LLMs are not yet capable of following complex instructions to use function calls precisely, with scores up to 60%, significantly lower than the human performance of 97%. The results underscore the need for further advancements in this area.

BigCodeBench: Valutazione della Generazione di Codice con Chiamate di Funzioni Diversificate e Istruzioni Complesse

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

Abstract

Support