ChatPaper.aiChatPaper

Génération de code auto-débogage guidée par un grand modèle de langage

Large Language Model Guided Self-Debugging Code Generation

February 5, 2025
Auteurs: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
cs.AI

Résumé

La génération automatisée de code gagne en importance dans la programmation informatique intelligente et le déploiement de systèmes. Cependant, les approches actuelles sont souvent confrontées à des défis en termes d'efficacité computationnelle et manquent de mécanismes robustes pour l'analyse de code et la correction d'erreurs. Dans ce travail, nous proposons un nouveau cadre, PyCapsule, avec un pipeline à deux agents simple mais efficace et des modules d'auto-débogage efficaces pour la génération de code Python. PyCapsule présente une inférence de suggestion sophistiquée, une gestion itérative des erreurs et des tests de cas, garantissant une stabilité, une sécurité et une correction élevées lors de la génération. Empiriquement, PyCapsule atteint jusqu'à 5,7 % d'amélioration du taux de réussite sur HumanEval, 10,3 % sur HumanEval-ET, et 24,4 % sur BigCodeBench par rapport aux méthodes de pointe. Nous observons également une diminution du taux de réussite normalisé avec plus de tentatives d'auto-débogage, potentiellement affectée par des retours d'erreurs limités et bruyants. PyCapsule démontre des impacts plus larges sur l'avancement de la génération de code légère et efficace pour les systèmes d'intelligence artificielle.
English
Automated code generation is gaining significant importance in intelligent computer programming and system deployment. However, current approaches often face challenges in computational efficiency and lack robust mechanisms for code parsing and error correction. In this work, we propose a novel framework, PyCapsule, with a simple yet effective two-agent pipeline and efficient self-debugging modules for Python code generation. PyCapsule features sophisticated prompt inference, iterative error handling, and case testing, ensuring high generation stability, safety, and correctness. Empirically, PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3% on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art methods. We also observe a decrease in normalized success rate given more self-debugging attempts, potentially affected by limited and noisy error feedback in retention. PyCapsule demonstrates broader impacts on advancing lightweight and efficient code generation for artificial intelligence systems.

Summary

AI-Generated Summary

PDF132February 6, 2025