Создание кода с самоотлаживанием под руководством большой языковой модели

Large Language Model Guided Self-Debugging Code Generation

February 5, 2025
Авторы: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
cs.AI

Аннотация

Автоматическая генерация кода приобретает значительное значение в интеллектуальном программировании и развертывании систем. Однако текущие подходы часто сталкиваются с проблемами в вычислительной эффективности и отсутствием надежных механизмов для разбора кода и исправления ошибок. В данной работе мы предлагаем новую концепцию, PyCapsule, с простым, но эффективным двухагентным конвейером и эффективными модулями самодиагностики для генерации кода на Python. PyCapsule включает в себя сложное выводимое подсказками, итеративное обработку ошибок и тестирование случаев, обеспечивая высокую стабильность, безопасность и корректность генерации. Эмпирически PyCapsule достигает улучшения успешности до 5.7% на HumanEval, 10.3% на HumanEval-ET и 24.4% на BigCodeBench по сравнению с передовыми методами. Мы также наблюдаем снижение нормализованной успешности при увеличении попыток самодиагностики, что потенциально обусловлено ограниченной и зашумленной обратной связью об ошибках. PyCapsule демонстрирует более широкие влияния на продвижение легкой и эффективной генерации кода для систем искусственного интеллекта.
English
Automated code generation is gaining significant importance in intelligent computer programming and system deployment. However, current approaches often face challenges in computational efficiency and lack robust mechanisms for code parsing and error correction. In this work, we propose a novel framework, PyCapsule, with a simple yet effective two-agent pipeline and efficient self-debugging modules for Python code generation. PyCapsule features sophisticated prompt inference, iterative error handling, and case testing, ensuring high generation stability, safety, and correctness. Empirically, PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3% on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art methods. We also observe a decrease in normalized success rate given more self-debugging attempts, potentially affected by limited and noisy error feedback in retention. PyCapsule demonstrates broader impacts on advancing lightweight and efficient code generation for artificial intelligence systems.

Summary

AI-Generated Summary

PDF132February 6, 2025