CODESIM: Generazione di Codice Multi-Agente e Risoluzione di Problemi tramite Pianificazione e Debugging basati su Simulazione

Abstract

I Large Language Models (LLM) hanno compiuto progressi significativi nella generazione di codice e nella risoluzione di problemi. Gli approcci attuali impiegano debugger iterativi basati su strumenti esterni che utilizzano feedback in tempo reale del compilatore o di altri strumenti per perfezionare programmi grezzi generati da vari metodi. Tuttavia, l'efficacia di questi approcci dipende fortemente dalla qualità della generazione iniziale del codice, che rimane una sfida aperta. In questo articolo, presentiamo CodeSim, un nuovo framework di generazione di codice multi-agente che affronta in modo esaustivo le fasi di sintesi del programma - pianificazione, codifica e debug - attraverso un approccio di percezione simile a quello umano. Come gli esseri umani verificano la propria comprensione di qualsiasi algoritmo attraverso la simulazione visiva, CodeSim presenta in modo unico un metodo di verifica del piano e di debug interno attraverso la simulazione passo dopo passo dell'input/output. Estesi esperimenti su sette impegnativi benchmark competitivi di risoluzione di problemi e sintesi di programmi dimostrano le notevoli capacità di generazione di codice di CodeSim. Il nostro framework raggiunge nuovi risultati di stato dell'arte (pass@1) - (HumanEval 95,1%, MBPP 90,7%, APPS 22% e CodeContests 29,1%). Inoltre, il nostro metodo mostra potenziale per un ulteriore miglioramento quando combinato con debugger esterni. Per agevolare ulteriori ricerche e sviluppi in questo settore, abbiamo reso open source il nostro framework a questo link (https://kagnlp.github.io/codesim.github.io/).

English

Large Language Models (LLMs) have made significant strides in code generation and problem solving. Current approaches employ external tool-based iterative debuggers that use compiler or other tool-based runtime feedback to refine coarse programs generated by various methods. However, the effectiveness of these approaches heavily relies on the quality of the initial code generation, which remains an open challenge. In this paper, we introduce CodeSim, a novel multi-agent code generation framework that comprehensively addresses the stages of program synthesis-planning, coding, and debugging-through a human-like perception approach. As human verifies their understanding of any algorithms through visual simulation, CodeSim uniquely features a method of plan verification and internal debugging through the step-by-step simulation of input/output. Extensive experiments across seven challenging competitive problem-solving and program synthesis benchmarks demonstrate CodeSim's remarkable code generation capabilities. Our framework achieves new state-of-the-art (pass@1) results-(HumanEval 95.1%, MBPP 90.7%, APPS 22%, and CodeContests 29.1%). Furthermore, our method shows potential for even greater enhancement when cascaded with external debuggers. To facilitate further research and development in this area, we have open-sourced our framework in this link (https://kagnlp.github.io/codesim.github.io/).

CODESIM: Generazione di Codice Multi-Agente e Risoluzione di Problemi tramite Pianificazione e Debugging basati su Simulazione

CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

Abstract

Support