CODESIM : Génération de Code Multi-Agents et Résolution de Problèmes à travers une Planification et un Débogage Pilotés par la Simulation
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging
February 8, 2025
Auteurs: Md. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont réalisé des avancées significatives dans la génération de code et la résolution de problèmes. Les approches actuelles utilisent des débogueurs itératifs basés sur des outils externes qui se servent des retours d'exécution du compilateur ou d'autres outils pour affiner les programmes grossiers générés par diverses méthodes. Cependant, l'efficacité de ces approches dépend fortement de la qualité de la génération initiale de code, ce qui reste un défi ouvert. Dans cet article, nous présentons CodeSim, un nouveau cadre de génération de code multi-agent qui aborde de manière exhaustive les étapes de la synthèse de programmes - planification, codage et débogage - à travers une approche de perception semblable à celle des humains. Comme les humains vérifient leur compréhension de tout algorithme par simulation visuelle, CodeSim présente de manière unique une méthode de vérification de plan et de débogage interne à travers la simulation pas à pas des entrées/sorties. Des expériences approfondies sur sept benchmarks compétitifs difficiles de résolution de problèmes et de synthèse de programmes démontrent les remarquables capacités de génération de code de CodeSim. Notre cadre atteint de nouveaux résultats de pointe (pass@1) - (HumanEval 95,1 %, MBPP 90,7 %, APPS 22 % et CodeContests 29,1 %). De plus, notre méthode montre un potentiel d'amélioration encore plus grand lorsqu'elle est combinée avec des débogueurs externes. Pour faciliter davantage la recherche et le développement dans ce domaine, nous avons rendu notre cadre open source disponible à ce lien (https://kagnlp.github.io/codesim.github.io/).
English
Large Language Models (LLMs) have made significant strides in code generation
and problem solving. Current approaches employ external tool-based iterative
debuggers that use compiler or other tool-based runtime feedback to refine
coarse programs generated by various methods. However, the effectiveness of
these approaches heavily relies on the quality of the initial code generation,
which remains an open challenge. In this paper, we introduce CodeSim, a novel
multi-agent code generation framework that comprehensively addresses the stages
of program synthesis-planning, coding, and debugging-through a human-like
perception approach. As human verifies their understanding of any algorithms
through visual simulation, CodeSim uniquely features a method of plan
verification and internal debugging through the step-by-step simulation of
input/output. Extensive experiments across seven challenging competitive
problem-solving and program synthesis benchmarks demonstrate CodeSim's
remarkable code generation capabilities. Our framework achieves new
state-of-the-art (pass@1) results-(HumanEval 95.1%, MBPP 90.7%, APPS 22%, and
CodeContests 29.1%). Furthermore, our method shows potential for even greater
enhancement when cascaded with external debuggers. To facilitate further
research and development in this area, we have open-sourced our framework in
this link (https://kagnlp.github.io/codesim.github.io/).Summary
AI-Generated Summary