Generación de código autoguiada por modelos de lenguaje grande para depuración automática.
Large Language Model Guided Self-Debugging Code Generation
February 5, 2025
Autores: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
cs.AI
Resumen
La generación automatizada de código está adquiriendo una importancia significativa en la programación informática inteligente y la implementación de sistemas. Sin embargo, los enfoques actuales a menudo enfrentan desafíos en eficiencia computacional y carecen de mecanismos sólidos para el análisis de código y corrección de errores. En este trabajo, proponemos un nuevo marco, PyCapsule, con un pipeline de dos agentes simple pero efectivo y módulos de auto-depuración eficientes para la generación de código en Python. PyCapsule cuenta con una inferencia de indicaciones sofisticada, manejo iterativo de errores y pruebas de casos, asegurando una alta estabilidad, seguridad y corrección en la generación. Empíricamente, PyCapsule logra hasta un 5.7% de mejora en la tasa de éxito en HumanEval, un 10.3% en HumanEval-ET y un 24.4% en BigCodeBench en comparación con los métodos de vanguardia. También observamos una disminución en la tasa de éxito normalizada con más intentos de auto-depuración, potencialmente afectada por retroalimentación de errores limitada y ruidosa en la retención. PyCapsule demuestra impactos más amplios en el avance de la generación de código ligero y eficiente para sistemas de inteligencia artificial.
English
Automated code generation is gaining significant importance in intelligent
computer programming and system deployment. However, current approaches often
face challenges in computational efficiency and lack robust mechanisms for code
parsing and error correction. In this work, we propose a novel framework,
PyCapsule, with a simple yet effective two-agent pipeline and efficient
self-debugging modules for Python code generation. PyCapsule features
sophisticated prompt inference, iterative error handling, and case testing,
ensuring high generation stability, safety, and correctness. Empirically,
PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3%
on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art
methods. We also observe a decrease in normalized success rate given more
self-debugging attempts, potentially affected by limited and noisy error
feedback in retention. PyCapsule demonstrates broader impacts on advancing
lightweight and efficient code generation for artificial intelligence systems.Summary
AI-Generated Summary