De la programmation à la correction : Fermer le dernier kilomètre de la génération de code avec le débogage hiérarchique
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging
October 2, 2024
Auteurs: Yuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu
cs.AI
Résumé
Alors que les grands modèles de langage ont réalisé des progrès significatifs dans la génération de code, le taux de réussite du code généré est limité par des erreurs subtiles, nécessitant souvent l'intervention humaine pour réussir les tests, en particulier pour les problèmes complexes. Les systèmes de débogage basés sur les LLM existants traitent les programmes générés comme des unités monolithiques, ne parvenant pas à résoudre les erreurs à plusieurs niveaux de granularité, des erreurs de syntaxe de bas niveau aux défauts algorithmiques de haut niveau. Dans cet article, nous présentons Multi-Granularity Debugger (MGDebugger), un débogueur de code hiérarchique qui isole, identifie et résout les erreurs à différents niveaux de granularité. MGDebugger décompose le code problématique en une structure arborescente hiérarchique de sous-fonctions, chaque niveau représentant une granularité d'erreur particulière. Pendant le débogage, il analyse chaque sous-fonction et résout itérativement les erreurs de bas en haut. Pour tester efficacement chaque sous-fonction, nous proposons un exécuteur Python simulé par LLM, qui trace l'exécution du code et suit les états des variables importants pour localiser précisément les erreurs. Des expériences approfondies démontrent que MGDebugger surpasse les systèmes de débogage existants, atteignant une amélioration de 18,9 % en précision par rapport aux générations de base dans HumanEval et un taux de réussite de réparation de 97,6 % dans HumanEvalFix. De plus, MGDebugger corrige efficacement les erreurs dans différentes catégories et niveaux de difficulté, démontrant sa robustesse et son efficacité.
English
While large language models have made significant strides in code generation,
the pass rate of the generated code is bottlenecked on subtle errors, often
requiring human intervention to pass tests, especially for complex problems.
Existing LLM-based debugging systems treat generated programs as monolithic
units, failing to address bugs at multiple levels of granularity, from
low-level syntax errors to high-level algorithmic flaws. In this paper, we
introduce Multi-Granularity Debugger (MGDebugger), a hierarchical code debugger
by isolating, identifying, and resolving bugs at various levels of granularity.
MGDebugger decomposes problematic code into a hierarchical tree structure of
subfunctions, with each level representing a particular granularity of error.
During debugging, it analyzes each subfunction and iteratively resolves bugs in
a bottom-up manner. To effectively test each subfunction, we propose an
LLM-simulated Python executor, which traces code execution and tracks important
variable states to pinpoint errors accurately. Extensive experiments
demonstrate that MGDebugger outperforms existing debugging systems, achieving
an 18.9% improvement in accuracy over seed generations in HumanEval and a 97.6%
repair success rate in HumanEvalFix. Furthermore, MGDebugger effectively fixes
bugs across different categories and difficulty levels, demonstrating its
robustness and effectiveness.Summary
AI-Generated Summary