De Código à Correção: Fechando a Última Etapa da Geração de Código com Depuração Hierárquica
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging
October 2, 2024
Autores: Yuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu
cs.AI
Resumo
Embora os grandes modelos de linguagem tenham avançado significativamente na geração de código, a taxa de aprovação do código gerado é limitada por erros sutis, frequentemente exigindo intervenção humana para passar nos testes, especialmente para problemas complexos. Os sistemas de depuração existentes baseados em LLM tratam os programas gerados como unidades monolíticas, falhando em abordar bugs em múltiplos níveis de granularidade, desde erros de sintaxe de baixo nível até falhas algorítmicas de alto nível. Neste artigo, apresentamos o Depurador de Múltipla Granularidade (MGDebugger), um depurador de código hierárquico que isola, identifica e resolve bugs em vários níveis de granularidade. O MGDebugger decompõe o código problemático em uma estrutura de árvore hierárquica de subfunções, sendo que cada nível representa uma granularidade específica de erro. Durante a depuração, ele analisa cada subfunção e resolve iterativamente os bugs de baixo para cima. Para testar efetivamente cada subfunção, propomos um executor Python simulado por LLM, que rastreia a execução do código e monitora estados importantes de variáveis para identificar erros com precisão. Experimentos extensivos demonstram que o MGDebugger supera os sistemas de depuração existentes, alcançando uma melhoria de 18,9% na precisão em relação às gerações iniciais no HumanEval e uma taxa de sucesso de reparo de 97,6% no HumanEvalFix. Além disso, o MGDebugger corrige efetivamente bugs em diferentes categorias e níveis de dificuldade, demonstrando sua robustez e eficácia.
English
While large language models have made significant strides in code generation,
the pass rate of the generated code is bottlenecked on subtle errors, often
requiring human intervention to pass tests, especially for complex problems.
Existing LLM-based debugging systems treat generated programs as monolithic
units, failing to address bugs at multiple levels of granularity, from
low-level syntax errors to high-level algorithmic flaws. In this paper, we
introduce Multi-Granularity Debugger (MGDebugger), a hierarchical code debugger
by isolating, identifying, and resolving bugs at various levels of granularity.
MGDebugger decomposes problematic code into a hierarchical tree structure of
subfunctions, with each level representing a particular granularity of error.
During debugging, it analyzes each subfunction and iteratively resolves bugs in
a bottom-up manner. To effectively test each subfunction, we propose an
LLM-simulated Python executor, which traces code execution and tracks important
variable states to pinpoint errors accurately. Extensive experiments
demonstrate that MGDebugger outperforms existing debugging systems, achieving
an 18.9% improvement in accuracy over seed generations in HumanEval and a 97.6%
repair success rate in HumanEvalFix. Furthermore, MGDebugger effectively fixes
bugs across different categories and difficulty levels, demonstrating its
robustness and effectiveness.Summary
AI-Generated Summary