ChatPaper.aiChatPaper

Großes Sprachmodell-gesteuertes Selbstdebugging-Codegenerierung

Large Language Model Guided Self-Debugging Code Generation

February 5, 2025
Autoren: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
cs.AI

Zusammenfassung

Die automatische Codegenerierung gewinnt zunehmend an Bedeutung in der intelligenten Computerprogrammierung und Systembereitstellung. Allerdings sehen sich aktuelle Ansätze oft mit Herausforderungen in der Rechenleistung und dem Mangel an robusten Mechanismen für die Codeanalyse und Fehlerkorrektur konfrontiert. In dieser Arbeit schlagen wir ein neuartiges Framework, PyCapsule, mit einem einfachen, aber effektiven Zwei-Agenten-Pipeline und effizienten Selbstdebugging-Modulen für die Python-Codegenerierung vor. PyCapsule zeichnet sich durch eine ausgefeilte Prompt-Inferenz, iterative Fehlerbehandlung und Falltests aus, die eine hohe Generierungsstabilität, Sicherheit und Korrektheit gewährleisten. Empirisch gesehen erzielt PyCapsule eine Verbesserung des Erfolgsgrades von bis zu 5,7 % bei HumanEval, 10,3 % bei HumanEval-ET und 24,4 % bei BigCodeBench im Vergleich zu den State-of-the-Art-Methoden. Wir beobachten auch eine Abnahme des normalisierten Erfolgsgrades bei zunehmenden Selbstdebugging-Versuchen, möglicherweise beeinflusst durch begrenztes und fehlerhaftes Feedback bei der Fehlerbehebung. PyCapsule zeigt breitere Auswirkungen auf die Förderung der leichten und effizienten Codegenerierung für KI-Systeme.
English
Automated code generation is gaining significant importance in intelligent computer programming and system deployment. However, current approaches often face challenges in computational efficiency and lack robust mechanisms for code parsing and error correction. In this work, we propose a novel framework, PyCapsule, with a simple yet effective two-agent pipeline and efficient self-debugging modules for Python code generation. PyCapsule features sophisticated prompt inference, iterative error handling, and case testing, ensuring high generation stability, safety, and correctness. Empirically, PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3% on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art methods. We also observe a decrease in normalized success rate given more self-debugging attempts, potentially affected by limited and noisy error feedback in retention. PyCapsule demonstrates broader impacts on advancing lightweight and efficient code generation for artificial intelligence systems.

Summary

AI-Generated Summary

PDF132February 6, 2025