ChatPaper.aiChatPaper

Geração de Código com Autodepuração Guiada por um Grande Modelo de Linguagem

Large Language Model Guided Self-Debugging Code Generation

February 5, 2025
Autores: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
cs.AI

Resumo

A geração automatizada de código está ganhando uma importância significativa na programação de computadores inteligente e na implantação de sistemas. No entanto, as abordagens atuais frequentemente enfrentam desafios em eficiência computacional e carecem de mecanismos robustos para análise e correção de erros de código. Neste trabalho, propomos um novo framework, PyCapsule, com um pipeline de dois agentes simples, porém eficaz, e módulos de auto-depuração eficientes para geração de código Python. O PyCapsule apresenta inferência de prompt sofisticada, tratamento iterativo de erros e testes de casos, garantindo alta estabilidade, segurança e correção na geração. Empiricamente, o PyCapsule alcança uma melhoria de até 5,7% na taxa de sucesso no HumanEval, 10,3% no HumanEval-ET e 24,4% no BigCodeBench em comparação com os métodos mais avançados. Também observamos uma diminuição na taxa de sucesso normalizada com mais tentativas de auto-depuração, potencialmente afetada por feedback de erro limitado e ruidoso na retenção. O PyCapsule demonstra impactos mais amplos no avanço da geração de código leve e eficiente para sistemas de inteligência artificial.
English
Automated code generation is gaining significant importance in intelligent computer programming and system deployment. However, current approaches often face challenges in computational efficiency and lack robust mechanisms for code parsing and error correction. In this work, we propose a novel framework, PyCapsule, with a simple yet effective two-agent pipeline and efficient self-debugging modules for Python code generation. PyCapsule features sophisticated prompt inference, iterative error handling, and case testing, ensuring high generation stability, safety, and correctness. Empirically, PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3% on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art methods. We also observe a decrease in normalized success rate given more self-debugging attempts, potentially affected by limited and noisy error feedback in retention. PyCapsule demonstrates broader impacts on advancing lightweight and efficient code generation for artificial intelligence systems.

Summary

AI-Generated Summary

PDF132February 6, 2025