CODESIM: Geração de Código Multiagente e Resolução de Problemas através de Planejamento e Depuração Orientados por Simulação.

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) avançaram significativamente na geração de código e resolução de problemas. As abordagens atuais empregam depuradores iterativos baseados em ferramentas externas que utilizam feedback em tempo de execução baseado em compilador ou outras ferramentas para refinar programas iniciais gerados por vários métodos. No entanto, a eficácia dessas abordagens depende fortemente da qualidade da geração inicial de código, o que ainda é um desafio em aberto. Neste artigo, apresentamos o CodeSim, um novo framework de geração de código multiagente que aborda de forma abrangente as etapas de síntese de programas - planejamento, codificação e depuração - por meio de uma abordagem de percepção semelhante à humana. Assim como os humanos verificam sua compreensão de algoritmos por meio de simulação visual, o CodeSim apresenta de forma única um método de verificação de plano e depuração interna por meio da simulação passo a passo de entrada/saída. Experimentos extensivos em sete desafiantes benchmarks de resolução de problemas e síntese de programas demonstram as notáveis capacidades de geração de código do CodeSim. Nosso framework alcança novos resultados de estado da arte (pass@1) - (Avaliação Humana 95,1%, MBPP 90,7%, APPS 22% e Concursos de Código 29,1%). Além disso, nosso método mostra potencial para ainda maior aprimoramento quando combinado com depuradores externos. Para facilitar pesquisas e desenvolvimentos adicionais nessa área, disponibilizamos nosso framework de código aberto neste link (https://kagnlp.github.io/codesim.github.io/).

English

Large Language Models (LLMs) have made significant strides in code generation and problem solving. Current approaches employ external tool-based iterative debuggers that use compiler or other tool-based runtime feedback to refine coarse programs generated by various methods. However, the effectiveness of these approaches heavily relies on the quality of the initial code generation, which remains an open challenge. In this paper, we introduce CodeSim, a novel multi-agent code generation framework that comprehensively addresses the stages of program synthesis-planning, coding, and debugging-through a human-like perception approach. As human verifies their understanding of any algorithms through visual simulation, CodeSim uniquely features a method of plan verification and internal debugging through the step-by-step simulation of input/output. Extensive experiments across seven challenging competitive problem-solving and program synthesis benchmarks demonstrate CodeSim's remarkable code generation capabilities. Our framework achieves new state-of-the-art (pass@1) results-(HumanEval 95.1%, MBPP 90.7%, APPS 22%, and CodeContests 29.1%). Furthermore, our method shows potential for even greater enhancement when cascaded with external debuggers. To facilitate further research and development in this area, we have open-sourced our framework in this link (https://kagnlp.github.io/codesim.github.io/).

CODESIM: Geração de Código Multiagente e Resolução de Problemas através de Planejamento e Depuração Orientados por Simulação.

CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

Resumo

Support