ChatPaper.aiChatPaper

Van Code naar Correctheid: Het Sluiten van de Laatste Stap van Codegeneratie met Hiërarchisch Debuggen

From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging

October 2, 2024
Auteurs: Yuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu
cs.AI

Samenvatting

Hoewel grote taalmodellen aanzienlijke vooruitgang hebben geboekt in codegeneratie, wordt de slaagkans van de gegenereerde code belemmerd door subtiele fouten, die vaak menselijke tussenkomst vereisen om tests te doorstaan, vooral bij complexe problemen. Bestaande op LLM gebaseerde debugsystemen behandelen gegenereerde programma's als monolithische eenheden en pakken bugs niet aan op meerdere niveaus van granulariteit, van laag-niveau syntaxisfouten tot hoog-niveau algoritmische gebreken. In dit artikel introduceren we Multi-Granulariteit Debugger (MGDebugger), een hiërarchische code debugger die bugs isoleert, identificeert en oplost op verschillende granulariteitsniveaus. MGDebugger decomposeert problematische code in een hiërarchische boomstructuur van subfuncties, waarbij elk niveau een specifieke granulariteit van fout vertegenwoordigt. Tijdens het debuggen analyseert het elke subfunctie en lost het bugs iteratief op op een bottom-up manier. Om elke subfunctie effectief te testen, stellen we een LLM-gesimuleerde Python-uitvoerder voor, die code-uitvoering traceert en belangrijke variabelenstaten bijhoudt om fouten nauwkeurig te lokaliseren. Uitgebreide experimenten tonen aan dat MGDebugger beter presteert dan bestaande debugsystemen, met een verbetering van 18,9% in nauwkeurigheid ten opzichte van initiële generaties in HumanEval en een reparatiesucces van 97,6% in HumanEvalFix. Bovendien lost MGDebugger effectief bugs op in verschillende categorieën en moeilijkheidsniveaus, wat zijn robuustheid en effectiviteit aantoont.
English
While large language models have made significant strides in code generation, the pass rate of the generated code is bottlenecked on subtle errors, often requiring human intervention to pass tests, especially for complex problems. Existing LLM-based debugging systems treat generated programs as monolithic units, failing to address bugs at multiple levels of granularity, from low-level syntax errors to high-level algorithmic flaws. In this paper, we introduce Multi-Granularity Debugger (MGDebugger), a hierarchical code debugger by isolating, identifying, and resolving bugs at various levels of granularity. MGDebugger decomposes problematic code into a hierarchical tree structure of subfunctions, with each level representing a particular granularity of error. During debugging, it analyzes each subfunction and iteratively resolves bugs in a bottom-up manner. To effectively test each subfunction, we propose an LLM-simulated Python executor, which traces code execution and tracks important variable states to pinpoint errors accurately. Extensive experiments demonstrate that MGDebugger outperforms existing debugging systems, achieving an 18.9% improvement in accuracy over seed generations in HumanEval and a 97.6% repair success rate in HumanEvalFix. Furthermore, MGDebugger effectively fixes bugs across different categories and difficulty levels, demonstrating its robustness and effectiveness.

Summary

AI-Generated Summary

PDF338November 16, 2024