ChatPaper.aiChatPaper

¿Pueden los Modelos de Lenguaje Reemplazar a los Programadores? REPOCOD Dice 'Todavía no'

Can Language Models Replace Programmers? REPOCOD Says 'Not Yet'

October 29, 2024
Autores: Shanchao Liang, Yiran Hu, Nan Jiang, Lin Tan
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) han demostrado una notable capacidad en la generación de código con más del 90% de aciertos en la resolución de problemas de codificación en Python en HumanEval y MBPP. Esta alta precisión plantea la pregunta: ¿pueden los LLMs reemplazar a los programadores humanos? Los benchmarks existentes de generación de código manual, simple o de una sola línea no pueden responder a esta pregunta debido a su brecha con el desarrollo de software del mundo real. Para responder a esta pregunta, proponemos REPOCOD, un benchmark de generación de código con 980 problemas recopilados de 11 proyectos del mundo real populares, con más del 58% de ellos que requieren información de contexto a nivel de archivo o repositorio. Además, REPOCOD tiene la longitud promedio de solución canónica más larga (331.6 tokens) y la complejidad ciclomática promedio más alta (9.00) en comparación con los benchmarks existentes. En nuestras evaluaciones con diez LLMs, ninguno de los modelos logra más del 30% de aciertos en REPOCOD, lo que revela la necesidad de construir LLMs más sólidos que puedan ayudar a los desarrolladores en el desarrollo de software del mundo real.
English
Large language models (LLMs) have shown remarkable ability in code generation with more than 90 pass@1 in solving Python coding problems in HumanEval and MBPP. Such high accuracy leads to the question: can LLMs replace human programmers? Existing manual crafted, simple, or single-line code generation benchmarks cannot answer this question due to their gap with real-world software development. To answer this question, we propose REPOCOD, a code generation benchmark with 980 problems collected from 11 popular real-world projects, with more than 58% of them requiring file-level or repository-level context information. In addition, REPOCOD has the longest average canonical solution length (331.6 tokens) and the highest average cyclomatic complexity (9.00) compared to existing benchmarks. In our evaluations on ten LLMs, none of the models can achieve more than 30 pass@1 on REPOCOD, disclosing the necessity of building stronger LLMs that can help developers in real-world software development.

Summary

AI-Generated Summary

PDF172November 16, 2024