Vom Code zur Korrektheit: Schließen des letzten Abschnitts der Codegenerierung mit hierarchischem Debugging
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging
October 2, 2024
Autoren: Yuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu
cs.AI
Zusammenfassung
Obwohl große Sprachmodelle bedeutende Fortschritte bei der Codegenerierung erzielt haben, wird die Bestehensrate des generierten Codes oft durch subtile Fehler behindert, die häufig menschliches Eingreifen erfordern, insbesondere bei komplexen Problemen. Vorhandene auf großen Sprachmodellen basierende Debugging-Systeme behandeln generierte Programme als monolithische Einheiten und können Fehler auf verschiedenen Granularitätsebenen, von syntaktischen Fehlern auf niedriger Ebene bis hin zu algorithmischen Fehlern auf hoher Ebene, nicht beheben. In diesem Artikel stellen wir den Multi-Granularity Debugger (MGDebugger) vor, einen hierarchischen Code-Debugger, der Fehler auf verschiedenen Granularitätsebenen isoliert, identifiziert und behebt. MGDebugger zerlegt problematischen Code in eine hierarchische Baumstruktur von Teilfunktionen, wobei jede Ebene eine bestimmte Fehlergranularität repräsentiert. Während des Debuggens analysiert er jede Teilfunktion und behebt Fehler iterativ von unten nach oben. Um jede Teilfunktion effektiv zu testen, schlagen wir einen LLM-simulierten Python-Executor vor, der die Codeausführung verfolgt und wichtige Variablenzustände überwacht, um Fehler präzise zu lokalisieren. Umfangreiche Experimente zeigen, dass MGDebugger vorhandene Debugging-Systeme übertrifft, eine Verbesserung der Genauigkeit um 18,9% gegenüber den Ausgangsgenerationen in HumanEval erzielt und eine Reparaturerfolgsrate von 97,6% in HumanEvalFix erreicht. Darüber hinaus behebt MGDebugger effektiv Fehler in verschiedenen Kategorien und Schwierigkeitsgraden und zeigt damit seine Robustheit und Effektivität.
English
While large language models have made significant strides in code generation,
the pass rate of the generated code is bottlenecked on subtle errors, often
requiring human intervention to pass tests, especially for complex problems.
Existing LLM-based debugging systems treat generated programs as monolithic
units, failing to address bugs at multiple levels of granularity, from
low-level syntax errors to high-level algorithmic flaws. In this paper, we
introduce Multi-Granularity Debugger (MGDebugger), a hierarchical code debugger
by isolating, identifying, and resolving bugs at various levels of granularity.
MGDebugger decomposes problematic code into a hierarchical tree structure of
subfunctions, with each level representing a particular granularity of error.
During debugging, it analyzes each subfunction and iteratively resolves bugs in
a bottom-up manner. To effectively test each subfunction, we propose an
LLM-simulated Python executor, which traces code execution and tracks important
variable states to pinpoint errors accurately. Extensive experiments
demonstrate that MGDebugger outperforms existing debugging systems, achieving
an 18.9% improvement in accuracy over seed generations in HumanEval and a 97.6%
repair success rate in HumanEvalFix. Furthermore, MGDebugger effectively fixes
bugs across different categories and difficulty levels, demonstrating its
robustness and effectiveness.Summary
AI-Generated Summary