CODESIM: Generazione di Codice Multi-Agente e Risoluzione di Problemi tramite Pianificazione e Debugging basati su Simulazione
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging
February 8, 2025
Autori: Md. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Abstract
I Large Language Models (LLM) hanno compiuto progressi significativi nella generazione di codice e nella risoluzione di problemi. Gli approcci attuali impiegano debugger iterativi basati su strumenti esterni che utilizzano feedback in tempo reale del compilatore o di altri strumenti per perfezionare programmi grezzi generati da vari metodi. Tuttavia, l'efficacia di questi approcci dipende fortemente dalla qualità della generazione iniziale del codice, che rimane una sfida aperta. In questo articolo, presentiamo CodeSim, un nuovo framework di generazione di codice multi-agente che affronta in modo esaustivo le fasi di sintesi del programma - pianificazione, codifica e debug - attraverso un approccio di percezione simile a quello umano. Come gli esseri umani verificano la propria comprensione di qualsiasi algoritmo attraverso la simulazione visiva, CodeSim presenta in modo unico un metodo di verifica del piano e di debug interno attraverso la simulazione passo dopo passo dell'input/output. Estesi esperimenti su sette impegnativi benchmark competitivi di risoluzione di problemi e sintesi di programmi dimostrano le notevoli capacità di generazione di codice di CodeSim. Il nostro framework raggiunge nuovi risultati di stato dell'arte (pass@1) - (HumanEval 95,1%, MBPP 90,7%, APPS 22% e CodeContests 29,1%). Inoltre, il nostro metodo mostra potenziale per un ulteriore miglioramento quando combinato con debugger esterni. Per agevolare ulteriori ricerche e sviluppi in questo settore, abbiamo reso open source il nostro framework a questo link (https://kagnlp.github.io/codesim.github.io/).
English
Large Language Models (LLMs) have made significant strides in code generation
and problem solving. Current approaches employ external tool-based iterative
debuggers that use compiler or other tool-based runtime feedback to refine
coarse programs generated by various methods. However, the effectiveness of
these approaches heavily relies on the quality of the initial code generation,
which remains an open challenge. In this paper, we introduce CodeSim, a novel
multi-agent code generation framework that comprehensively addresses the stages
of program synthesis-planning, coding, and debugging-through a human-like
perception approach. As human verifies their understanding of any algorithms
through visual simulation, CodeSim uniquely features a method of plan
verification and internal debugging through the step-by-step simulation of
input/output. Extensive experiments across seven challenging competitive
problem-solving and program synthesis benchmarks demonstrate CodeSim's
remarkable code generation capabilities. Our framework achieves new
state-of-the-art (pass@1) results-(HumanEval 95.1%, MBPP 90.7%, APPS 22%, and
CodeContests 29.1%). Furthermore, our method shows potential for even greater
enhancement when cascaded with external debuggers. To facilitate further
research and development in this area, we have open-sourced our framework in
this link (https://kagnlp.github.io/codesim.github.io/).Summary
AI-Generated Summary