Uma Avaliação Estática da Conclusão de Código por Modelos de Linguagem de Grande Escala

Resumo

Modelos de linguagem de grande escala treinados em código têm demonstrado grande potencial para aumentar a produtividade de desenvolvedores de software. Vários benchmarks baseados em execução foram propostos para avaliar a correção funcional de códigos gerados por modelos em problemas de programação simples. No entanto, é caro realizar a mesma avaliação em projetos complexos do mundo real, considerando o custo de execução. Por outro lado, ferramentas de análise estática, como linters, que podem detectar erros sem executar o programa, não foram bem exploradas para avaliar modelos de geração de código. Neste trabalho, propomos uma estrutura de avaliação estática para quantificar erros estáticos em completações de código Python, utilizando Árvores de Sintaxe Abstrata. Em comparação com a avaliação baseada em execução, nosso método não é apenas mais eficiente, mas também aplicável a códigos em cenários reais. Para os experimentos, coletamos contextos de código de repositórios de código aberto para gerar um milhão de corpos de função usando modelos públicos. Nossa análise estática revela que Nome Indefinido e Variável Não Utilizada são os erros mais comuns entre outros cometidos por modelos de linguagem. Através de estudos extensivos, também mostramos o impacto da temperatura de amostragem, do tamanho do modelo e do contexto nos erros estáticos em completações de código.

English

Large language models trained on code have shown great potential to increase productivity of software developers. Several execution-based benchmarks have been proposed to evaluate functional correctness of model-generated code on simple programming problems. Nevertheless, it is expensive to perform the same evaluation on complex real-world projects considering the execution cost. On the contrary, static analysis tools such as linters, which can detect errors without running the program, haven't been well explored for evaluating code generation models. In this work, we propose a static evaluation framework to quantify static errors in Python code completions, by leveraging Abstract Syntax Trees. Compared with execution-based evaluation, our method is not only more efficient, but also applicable to code in the wild. For experiments, we collect code context from open source repos to generate one million function bodies using public models. Our static analysis reveals that Undefined Name and Unused Variable are the most common errors among others made by language models. Through extensive studies, we also show the impact of sampling temperature, model size, and context on static errors in code completions.

Uma Avaliação Estática da Conclusão de Código por Modelos de Linguagem de Grande Escala

A Static Evaluation of Code Completion by Large Language Models

Resumo

Support