ChatPaper.aiChatPaper

Zelfbegeleide foutopsporing bij het genereren van code met behulp van een groot taalmodel.

Large Language Model Guided Self-Debugging Code Generation

February 5, 2025
Auteurs: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
cs.AI

Samenvatting

Geautomatiseerde codegeneratie wint aanzienlijke belangstelling in intelligente computerprogrammering en systeemimplementatie. Huidige benaderingen ondervinden echter vaak uitdagingen op het gebied van rekenkundige efficiëntie en missen robuuste mechanismen voor code-analyse en foutcorrectie. In dit werk stellen we een nieuw raamwerk voor, PyCapsule, met een eenvoudige maar effectieve tweeledige pijplijn en efficiënte zelfdebuggingmodules voor het genereren van Python-code. PyCapsule kenmerkt zich door geavanceerde promptinferentie, iteratieve foutafhandeling en casetesting, wat zorgt voor hoge generatiestabiliteit, veiligheid en correctheid. Empirisch gezien behaalt PyCapsule tot 5,7% verbetering van het succespercentage op HumanEval, 10,3% op HumanEval-ET en 24,4% op BigCodeBench in vergelijking met de state-of-the-art methoden. We observeren ook een afname in genormaliseerd succespercentage bij meer zelfdebuggingpogingen, mogelijk beïnvloed door beperkte en ruisachtige foutfeedback bij retentie. PyCapsule toont bredere impact op het bevorderen van lichtgewicht en efficiënte codegeneratie voor kunstmatige intelligentiesystemen.
English
Automated code generation is gaining significant importance in intelligent computer programming and system deployment. However, current approaches often face challenges in computational efficiency and lack robust mechanisms for code parsing and error correction. In this work, we propose a novel framework, PyCapsule, with a simple yet effective two-agent pipeline and efficient self-debugging modules for Python code generation. PyCapsule features sophisticated prompt inference, iterative error handling, and case testing, ensuring high generation stability, safety, and correctness. Empirically, PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3% on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art methods. We also observe a decrease in normalized success rate given more self-debugging attempts, potentially affected by limited and noisy error feedback in retention. PyCapsule demonstrates broader impacts on advancing lightweight and efficient code generation for artificial intelligence systems.

Summary

AI-Generated Summary

PDF132February 6, 2025