CODESIM : Génération de Code Multi-Agents et Résolution de Problèmes à travers une Planification et un Débogage Pilotés par la Simulation

papers.abstract

Les grands modèles de langage (LLMs) ont réalisé des avancées significatives dans la génération de code et la résolution de problèmes. Les approches actuelles utilisent des débogueurs itératifs basés sur des outils externes qui se servent des retours d'exécution du compilateur ou d'autres outils pour affiner les programmes grossiers générés par diverses méthodes. Cependant, l'efficacité de ces approches dépend fortement de la qualité de la génération initiale de code, ce qui reste un défi ouvert. Dans cet article, nous présentons CodeSim, un nouveau cadre de génération de code multi-agent qui aborde de manière exhaustive les étapes de la synthèse de programmes - planification, codage et débogage - à travers une approche de perception semblable à celle des humains. Comme les humains vérifient leur compréhension de tout algorithme par simulation visuelle, CodeSim présente de manière unique une méthode de vérification de plan et de débogage interne à travers la simulation pas à pas des entrées/sorties. Des expériences approfondies sur sept benchmarks compétitifs difficiles de résolution de problèmes et de synthèse de programmes démontrent les remarquables capacités de génération de code de CodeSim. Notre cadre atteint de nouveaux résultats de pointe (pass@1) - (HumanEval 95,1 %, MBPP 90,7 %, APPS 22 % et CodeContests 29,1 %). De plus, notre méthode montre un potentiel d'amélioration encore plus grand lorsqu'elle est combinée avec des débogueurs externes. Pour faciliter davantage la recherche et le développement dans ce domaine, nous avons rendu notre cadre open source disponible à ce lien (https://kagnlp.github.io/codesim.github.io/).

English

Large Language Models (LLMs) have made significant strides in code generation and problem solving. Current approaches employ external tool-based iterative debuggers that use compiler or other tool-based runtime feedback to refine coarse programs generated by various methods. However, the effectiveness of these approaches heavily relies on the quality of the initial code generation, which remains an open challenge. In this paper, we introduce CodeSim, a novel multi-agent code generation framework that comprehensively addresses the stages of program synthesis-planning, coding, and debugging-through a human-like perception approach. As human verifies their understanding of any algorithms through visual simulation, CodeSim uniquely features a method of plan verification and internal debugging through the step-by-step simulation of input/output. Extensive experiments across seven challenging competitive problem-solving and program synthesis benchmarks demonstrate CodeSim's remarkable code generation capabilities. Our framework achieves new state-of-the-art (pass@1) results-(HumanEval 95.1%, MBPP 90.7%, APPS 22%, and CodeContests 29.1%). Furthermore, our method shows potential for even greater enhancement when cascaded with external debuggers. To facilitate further research and development in this area, we have open-sourced our framework in this link (https://kagnlp.github.io/codesim.github.io/).

CODESIM : Génération de Code Multi-Agents et Résolution de Problèmes à travers une Planification et un Débogage Pilotés par la Simulation

CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

papers.abstract

Support