От кода к корректности: закрытие последнего этапа генерации кода с иерархическим отладочным инструментом.

Аннотация

Хотя большие языковые модели сделали значительные успехи в генерации кода, процент прохождения сгенерированного кода ограничивается тонкими ошибками, часто требующими вмешательства человека для прохождения тестов, особенно для сложных задач. Существующие системы отладки на основе LLM рассматривают сгенерированные программы как монолитные единицы, не уделяя внимания ошибкам на нескольких уровнях детализации, от низкоуровневых синтаксических ошибок до высокоуровневых алгоритмических недочетов. В данной статье мы представляем Multi-Granularity Debugger (MGDebugger), иерархический отладчик кода, выделяющий, идентифицирующий и устраняющий ошибки на различных уровнях детализации. MGDebugger декомпозирует проблемный код в иерархическое дерево структуры подфункций, при этом каждый уровень представляет определенную детализацию ошибки. Во время отладки он анализирует каждую подфункцию и итеративно устраняет ошибки снизу вверх. Для эффективного тестирования каждой подфункции мы предлагаем LLM-симулированный исполнитель Python, который отслеживает выполнение кода и отслеживает важные состояния переменных для точного определения ошибок. Обширные эксперименты демонстрируют, что MGDebugger превосходит существующие системы отладки, достигая улучшения точности на 18,9% по сравнению с начальными поколениями в HumanEval и успешной скоростью восстановления на уровне 97,6% в HumanEvalFix. Более того, MGDebugger эффективно устраняет ошибки в различных категориях и уровнях сложности, демонстрируя свою надежность и эффективность.

English

While large language models have made significant strides in code generation, the pass rate of the generated code is bottlenecked on subtle errors, often requiring human intervention to pass tests, especially for complex problems. Existing LLM-based debugging systems treat generated programs as monolithic units, failing to address bugs at multiple levels of granularity, from low-level syntax errors to high-level algorithmic flaws. In this paper, we introduce Multi-Granularity Debugger (MGDebugger), a hierarchical code debugger by isolating, identifying, and resolving bugs at various levels of granularity. MGDebugger decomposes problematic code into a hierarchical tree structure of subfunctions, with each level representing a particular granularity of error. During debugging, it analyzes each subfunction and iteratively resolves bugs in a bottom-up manner. To effectively test each subfunction, we propose an LLM-simulated Python executor, which traces code execution and tracks important variable states to pinpoint errors accurately. Extensive experiments demonstrate that MGDebugger outperforms existing debugging systems, achieving an 18.9% improvement in accuracy over seed generations in HumanEval and a 97.6% repair success rate in HumanEvalFix. Furthermore, MGDebugger effectively fixes bugs across different categories and difficulty levels, demonstrating its robustness and effectiveness.

От кода к корректности: закрытие последнего этапа генерации кода с иерархическим отладочным инструментом.

From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging

Аннотация

Support