Generazione di codice autoguidata da un grande modello linguistico per l'auto-debugging.

Abstract

La generazione automatica di codice sta acquisendo un'importanza significativa nella programmazione informatica intelligente e nella distribuzione di sistemi. Tuttavia, gli approcci attuali spesso affrontano sfide legate all'efficienza computazionale e alla mancanza di meccanismi robusti per l'analisi del codice e la correzione degli errori. In questo lavoro, proponiamo un nuovo framework, PyCapsule, con un pipeline a due agenti semplice ma efficace e moduli di auto-debugging efficienti per la generazione di codice Python. PyCapsule presenta un'elaborazione sofisticata dei prompt, una gestione degli errori iterativa e test dei casi, garantendo un'elevata stabilità, sicurezza e correttezza nella generazione. Dal punto di vista empirico, PyCapsule raggiunge un miglioramento fino al 5.7% del tasso di successo su HumanEval, del 10.3% su HumanEval-ET e del 24.4% su BigCodeBench rispetto ai metodi più avanzati. Osserviamo anche una diminuzione del tasso di successo normalizzato con un maggior numero di tentativi di auto-debugging, potenzialmente influenzata da un feedback sugli errori limitato e rumoroso nella fase di mantenimento. PyCapsule dimostra impatti più ampi nel progresso della generazione di codice leggero ed efficiente per i sistemi di intelligenza artificiale.

English

Automated code generation is gaining significant importance in intelligent computer programming and system deployment. However, current approaches often face challenges in computational efficiency and lack robust mechanisms for code parsing and error correction. In this work, we propose a novel framework, PyCapsule, with a simple yet effective two-agent pipeline and efficient self-debugging modules for Python code generation. PyCapsule features sophisticated prompt inference, iterative error handling, and case testing, ensuring high generation stability, safety, and correctness. Empirically, PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3% on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art methods. We also observe a decrease in normalized success rate given more self-debugging attempts, potentially affected by limited and noisy error feedback in retention. PyCapsule demonstrates broader impacts on advancing lightweight and efficient code generation for artificial intelligence systems.

Generazione di codice autoguidata da un grande modello linguistico per l'auto-debugging.

Large Language Model Guided Self-Debugging Code Generation

Abstract

Support