CODESIM: Geração de Código Multiagente e Resolução de Problemas através de Planejamento e Depuração Orientados por Simulação.
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging
February 8, 2025
Autores: Md. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) avançaram significativamente na geração de código e resolução de problemas. As abordagens atuais empregam depuradores iterativos baseados em ferramentas externas que utilizam feedback em tempo de execução baseado em compilador ou outras ferramentas para refinar programas iniciais gerados por vários métodos. No entanto, a eficácia dessas abordagens depende fortemente da qualidade da geração inicial de código, o que ainda é um desafio em aberto. Neste artigo, apresentamos o CodeSim, um novo framework de geração de código multiagente que aborda de forma abrangente as etapas de síntese de programas - planejamento, codificação e depuração - por meio de uma abordagem de percepção semelhante à humana. Assim como os humanos verificam sua compreensão de algoritmos por meio de simulação visual, o CodeSim apresenta de forma única um método de verificação de plano e depuração interna por meio da simulação passo a passo de entrada/saída. Experimentos extensivos em sete desafiantes benchmarks de resolução de problemas e síntese de programas demonstram as notáveis capacidades de geração de código do CodeSim. Nosso framework alcança novos resultados de estado da arte (pass@1) - (Avaliação Humana 95,1%, MBPP 90,7%, APPS 22% e Concursos de Código 29,1%). Além disso, nosso método mostra potencial para ainda maior aprimoramento quando combinado com depuradores externos. Para facilitar pesquisas e desenvolvimentos adicionais nessa área, disponibilizamos nosso framework de código aberto neste link (https://kagnlp.github.io/codesim.github.io/).
English
Large Language Models (LLMs) have made significant strides in code generation
and problem solving. Current approaches employ external tool-based iterative
debuggers that use compiler or other tool-based runtime feedback to refine
coarse programs generated by various methods. However, the effectiveness of
these approaches heavily relies on the quality of the initial code generation,
which remains an open challenge. In this paper, we introduce CodeSim, a novel
multi-agent code generation framework that comprehensively addresses the stages
of program synthesis-planning, coding, and debugging-through a human-like
perception approach. As human verifies their understanding of any algorithms
through visual simulation, CodeSim uniquely features a method of plan
verification and internal debugging through the step-by-step simulation of
input/output. Extensive experiments across seven challenging competitive
problem-solving and program synthesis benchmarks demonstrate CodeSim's
remarkable code generation capabilities. Our framework achieves new
state-of-the-art (pass@1) results-(HumanEval 95.1%, MBPP 90.7%, APPS 22%, and
CodeContests 29.1%). Furthermore, our method shows potential for even greater
enhancement when cascaded with external debuggers. To facilitate further
research and development in this area, we have open-sourced our framework in
this link (https://kagnlp.github.io/codesim.github.io/).