De Código a Corrección: Cerrando la Última Milla de la Generación de Código con Depuración Jerárquica
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging
October 2, 2024
Autores: Yuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu
cs.AI
Resumen
Si bien los modelos de lenguaje grandes han avanzado significativamente en la generación de código, la tasa de aprobación del código generado se ve obstaculizada por errores sutiles, que a menudo requieren intervención humana para pasar pruebas, especialmente en problemas complejos. Los sistemas de depuración existentes basados en LLM tratan los programas generados como unidades monolíticas, sin abordar los errores en múltiples niveles de granularidad, desde errores de sintaxis de bajo nivel hasta fallas algorítmicas de alto nivel. En este documento, presentamos Multi-Granularity Debugger (MGDebugger), un depurador de código jerárquico que aísla, identifica y resuelve errores en varios niveles de granularidad. MGDebugger descompone el código problemático en una estructura jerárquica de árbol de subfunciones, donde cada nivel representa una granularidad de error particular. Durante la depuración, analiza cada subfunción y resuelve iterativamente los errores de abajo hacia arriba. Para probar efectivamente cada subfunción, proponemos un ejecutor Python simulado por LLM, que rastrea la ejecución del código y sigue los estados variables importantes para identificar errores con precisión. Experimentos extensos demuestran que MGDebugger supera a los sistemas de depuración existentes, logrando una mejora del 18.9% en precisión sobre las generaciones iniciales en HumanEval y una tasa de éxito de reparación del 97.6% en HumanEvalFix. Además, MGDebugger soluciona efectivamente errores en diferentes categorías y niveles de dificultad, demostrando su robustez y efectividad.
English
While large language models have made significant strides in code generation,
the pass rate of the generated code is bottlenecked on subtle errors, often
requiring human intervention to pass tests, especially for complex problems.
Existing LLM-based debugging systems treat generated programs as monolithic
units, failing to address bugs at multiple levels of granularity, from
low-level syntax errors to high-level algorithmic flaws. In this paper, we
introduce Multi-Granularity Debugger (MGDebugger), a hierarchical code debugger
by isolating, identifying, and resolving bugs at various levels of granularity.
MGDebugger decomposes problematic code into a hierarchical tree structure of
subfunctions, with each level representing a particular granularity of error.
During debugging, it analyzes each subfunction and iteratively resolves bugs in
a bottom-up manner. To effectively test each subfunction, we propose an
LLM-simulated Python executor, which traces code execution and tracks important
variable states to pinpoint errors accurately. Extensive experiments
demonstrate that MGDebugger outperforms existing debugging systems, achieving
an 18.9% improvement in accuracy over seed generations in HumanEval and a 97.6%
repair success rate in HumanEvalFix. Furthermore, MGDebugger effectively fixes
bugs across different categories and difficulty levels, demonstrating its
robustness and effectiveness.Summary
AI-Generated Summary