Zelfbegeleide foutopsporing bij het genereren van code met behulp van een groot taalmodel.
Large Language Model Guided Self-Debugging Code Generation
February 5, 2025
Auteurs: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
cs.AI
Samenvatting
Geautomatiseerde codegeneratie wint aanzienlijke belangstelling in intelligente computerprogrammering en systeemimplementatie. Huidige benaderingen ondervinden echter vaak uitdagingen op het gebied van rekenkundige efficiëntie en missen robuuste mechanismen voor code-analyse en foutcorrectie. In dit werk stellen we een nieuw raamwerk voor, PyCapsule, met een eenvoudige maar effectieve tweeledige pijplijn en efficiënte zelfdebuggingmodules voor het genereren van Python-code. PyCapsule kenmerkt zich door geavanceerde promptinferentie, iteratieve foutafhandeling en casetesting, wat zorgt voor hoge generatiestabiliteit, veiligheid en correctheid. Empirisch gezien behaalt PyCapsule tot 5,7% verbetering van het succespercentage op HumanEval, 10,3% op HumanEval-ET en 24,4% op BigCodeBench in vergelijking met de state-of-the-art methoden. We observeren ook een afname in genormaliseerd succespercentage bij meer zelfdebuggingpogingen, mogelijk beïnvloed door beperkte en ruisachtige foutfeedback bij retentie. PyCapsule toont bredere impact op het bevorderen van lichtgewicht en efficiënte codegeneratie voor kunstmatige intelligentiesystemen.
English
Automated code generation is gaining significant importance in intelligent
computer programming and system deployment. However, current approaches often
face challenges in computational efficiency and lack robust mechanisms for code
parsing and error correction. In this work, we propose a novel framework,
PyCapsule, with a simple yet effective two-agent pipeline and efficient
self-debugging modules for Python code generation. PyCapsule features
sophisticated prompt inference, iterative error handling, and case testing,
ensuring high generation stability, safety, and correctness. Empirically,
PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3%
on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art
methods. We also observe a decrease in normalized success rate given more
self-debugging attempts, potentially affected by limited and noisy error
feedback in retention. PyCapsule demonstrates broader impacts on advancing
lightweight and efficient code generation for artificial intelligence systems.Summary
AI-Generated Summary