Será que Modelos de Linguagem Podem Substituir Programadores? REPOCOD Diz Que 'Ainda Não'.
Can Language Models Replace Programmers? REPOCOD Says 'Not Yet'
October 29, 2024
Autores: Shanchao Liang, Yiran Hu, Nan Jiang, Lin Tan
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) têm demonstrado uma notável capacidade na geração de código, com mais de 90 pass@1 na resolução de problemas de codificação em Python no HumanEval e MBPP. Essa alta precisão levanta a questão: os LLMs podem substituir programadores humanos? Os benchmarks existentes de geração de código manualmente elaborados, simples ou de uma única linha, não podem responder a essa pergunta devido à sua discrepância com o desenvolvimento de software do mundo real. Para responder a essa pergunta, propomos o REPOCOD, um benchmark de geração de código com 980 problemas coletados de 11 projetos do mundo real populares, sendo que mais de 58% deles requerem informações de contexto em nível de arquivo ou repositório. Além disso, o REPOCOD possui o maior comprimento médio de solução canônica (331,6 tokens) e a maior complexidade ciclomática média (9,00) em comparação com benchmarks existentes. Em nossas avaliações com dez LLMs, nenhum dos modelos conseguiu atingir mais de 30 pass@1 no REPOCOD, revelando a necessidade de construir LLMs mais robustos que possam auxiliar os desenvolvedores no desenvolvimento de software do mundo real.
English
Large language models (LLMs) have shown remarkable ability in code generation
with more than 90 pass@1 in solving Python coding problems in HumanEval and
MBPP. Such high accuracy leads to the question: can LLMs replace human
programmers? Existing manual crafted, simple, or single-line code generation
benchmarks cannot answer this question due to their gap with real-world
software development. To answer this question, we propose REPOCOD, a code
generation benchmark with 980 problems collected from 11 popular real-world
projects, with more than 58% of them requiring file-level or repository-level
context information. In addition, REPOCOD has the longest average canonical
solution length (331.6 tokens) and the highest average cyclomatic complexity
(9.00) compared to existing benchmarks. In our evaluations on ten LLMs, none of
the models can achieve more than 30 pass@1 on REPOCOD, disclosing the necessity
of building stronger LLMs that can help developers in real-world software
development.Summary
AI-Generated Summary