Évaluation statique de la complétion de code par les grands modèles de langage

papers.abstract

Les grands modèles de langage entraînés sur du code ont démontré un potentiel considérable pour augmenter la productivité des développeurs de logiciels. Plusieurs benchmarks basés sur l'exécution ont été proposés pour évaluer la correction fonctionnelle du code généré par les modèles sur des problèmes de programmation simples. Néanmoins, il est coûteux de réaliser la même évaluation sur des projets complexes du monde réel en raison des coûts d'exécution. À l'inverse, les outils d'analyse statique tels que les linters, qui peuvent détecter des erreurs sans exécuter le programme, n'ont pas été suffisamment explorés pour évaluer les modèles de génération de code. Dans ce travail, nous proposons un cadre d'évaluation statique pour quantifier les erreurs statiques dans les complétions de code Python, en exploitant les arbres syntaxiques abstraits. Par rapport à l'évaluation basée sur l'exécution, notre méthode est non seulement plus efficace, mais aussi applicable au code en situation réelle. Pour les expériences, nous collectons des contextes de code à partir de dépôts open source pour générer un million de corps de fonctions à l'aide de modèles publics. Notre analyse statique révèle que les erreurs les plus courantes parmi celles commises par les modèles de langage sont les noms non définis et les variables inutilisées. À travers des études approfondies, nous montrons également l'impact de la température d'échantillonnage, de la taille du modèle et du contexte sur les erreurs statiques dans les complétions de code.

English

Large language models trained on code have shown great potential to increase productivity of software developers. Several execution-based benchmarks have been proposed to evaluate functional correctness of model-generated code on simple programming problems. Nevertheless, it is expensive to perform the same evaluation on complex real-world projects considering the execution cost. On the contrary, static analysis tools such as linters, which can detect errors without running the program, haven't been well explored for evaluating code generation models. In this work, we propose a static evaluation framework to quantify static errors in Python code completions, by leveraging Abstract Syntax Trees. Compared with execution-based evaluation, our method is not only more efficient, but also applicable to code in the wild. For experiments, we collect code context from open source repos to generate one million function bodies using public models. Our static analysis reveals that Undefined Name and Unused Variable are the most common errors among others made by language models. Through extensive studies, we also show the impact of sampling temperature, model size, and context on static errors in code completions.

Évaluation statique de la complétion de code par les grands modèles de langage

A Static Evaluation of Code Completion by Large Language Models

papers.abstract

Support