Geração de Código com Autodepuração Guiada por um Grande Modelo de Linguagem
Large Language Model Guided Self-Debugging Code Generation
February 5, 2025
Autores: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
cs.AI
Resumo
A geração automatizada de código está ganhando uma importância significativa na programação de computadores inteligente e na implantação de sistemas. No entanto, as abordagens atuais frequentemente enfrentam desafios em eficiência computacional e carecem de mecanismos robustos para análise e correção de erros de código. Neste trabalho, propomos um novo framework, PyCapsule, com um pipeline de dois agentes simples, porém eficaz, e módulos de auto-depuração eficientes para geração de código Python. O PyCapsule apresenta inferência de prompt sofisticada, tratamento iterativo de erros e testes de casos, garantindo alta estabilidade, segurança e correção na geração. Empiricamente, o PyCapsule alcança uma melhoria de até 5,7% na taxa de sucesso no HumanEval, 10,3% no HumanEval-ET e 24,4% no BigCodeBench em comparação com os métodos mais avançados. Também observamos uma diminuição na taxa de sucesso normalizada com mais tentativas de auto-depuração, potencialmente afetada por feedback de erro limitado e ruidoso na retenção. O PyCapsule demonstra impactos mais amplos no avanço da geração de código leve e eficiente para sistemas de inteligência artificial.
English
Automated code generation is gaining significant importance in intelligent
computer programming and system deployment. However, current approaches often
face challenges in computational efficiency and lack robust mechanisms for code
parsing and error correction. In this work, we propose a novel framework,
PyCapsule, with a simple yet effective two-agent pipeline and efficient
self-debugging modules for Python code generation. PyCapsule features
sophisticated prompt inference, iterative error handling, and case testing,
ensuring high generation stability, safety, and correctness. Empirically,
PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3%
on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art
methods. We also observe a decrease in normalized success rate given more
self-debugging attempts, potentially affected by limited and noisy error
feedback in retention. PyCapsule demonstrates broader impacts on advancing
lightweight and efficient code generation for artificial intelligence systems.Summary
AI-Generated Summary