Generación de código autoguiada por modelos de lenguaje grande para depuración automática.

Resumen

La generación automatizada de código está adquiriendo una importancia significativa en la programación informática inteligente y la implementación de sistemas. Sin embargo, los enfoques actuales a menudo enfrentan desafíos en eficiencia computacional y carecen de mecanismos sólidos para el análisis de código y corrección de errores. En este trabajo, proponemos un nuevo marco, PyCapsule, con un pipeline de dos agentes simple pero efectivo y módulos de auto-depuración eficientes para la generación de código en Python. PyCapsule cuenta con una inferencia de indicaciones sofisticada, manejo iterativo de errores y pruebas de casos, asegurando una alta estabilidad, seguridad y corrección en la generación. Empíricamente, PyCapsule logra hasta un 5.7% de mejora en la tasa de éxito en HumanEval, un 10.3% en HumanEval-ET y un 24.4% en BigCodeBench en comparación con los métodos de vanguardia. También observamos una disminución en la tasa de éxito normalizada con más intentos de auto-depuración, potencialmente afectada por retroalimentación de errores limitada y ruidosa en la retención. PyCapsule demuestra impactos más amplios en el avance de la generación de código ligero y eficiente para sistemas de inteligencia artificial.

English

Automated code generation is gaining significant importance in intelligent computer programming and system deployment. However, current approaches often face challenges in computational efficiency and lack robust mechanisms for code parsing and error correction. In this work, we propose a novel framework, PyCapsule, with a simple yet effective two-agent pipeline and efficient self-debugging modules for Python code generation. PyCapsule features sophisticated prompt inference, iterative error handling, and case testing, ensuring high generation stability, safety, and correctness. Empirically, PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3% on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art methods. We also observe a decrease in normalized success rate given more self-debugging attempts, potentially affected by limited and noisy error feedback in retention. PyCapsule demonstrates broader impacts on advancing lightweight and efficient code generation for artificial intelligence systems.

Generación de código autoguiada por modelos de lenguaje grande para depuración automática.

Large Language Model Guided Self-Debugging Code Generation

Resumen

Summary

Support