FullStack-Agent: Aprimorando a Programação Web Full-Stack Agente por meio de Testes Orientados ao Desenvolvimento e Retro-tradução de Repositório

Resumo

Auxiliar utilizadores não especializados a desenvolver sites interativos complexos tornou-se uma tarefa popular para agentes de código baseados em LLM. No entanto, os agentes de código existentes tendem a gerar apenas páginas web frontend, mascarando a falta de processamento e armazenamento de dados full-stack reais com efeitos visuais sofisticados. Notavelmente, a construção de aplicações web full-stack de nível de produção é muito mais desafiadora do que apenas gerar páginas web frontend, exigindo um controlo cuidadoso do fluxo de dados, uma compreensão abrangente de pacotes e dependências em constante atualização e uma localização precisa de erros obscuros na base de código. Para enfrentar estas dificuldades, introduzimos o FullStack-Agent, um sistema de agente unificado para codificação agentiva full-stack que consiste em três partes: (1) FullStack-Dev, uma estrutura multiagente com fortes capacidades de planeamento, edição de código, navegação na base de código e localização de erros. (2) FullStack-Learn, um método inovador de escalonamento de dados e autoaprimoramento que retro-traduz repositórios de websites rastreados e sintetizados para melhorar o LLM base do FullStack-Dev. (3) FullStack-Bench, um benchmark abrangente que testa sistematicamente as funcionalidades frontend, backend e de base de dados do website gerado. O nosso FullStack-Dev supera o método state-of-the-art anterior em 8,7%, 38,2% e 15,9% nos casos de teste frontend, backend e de base de dados, respetivamente. Adicionalmente, o FullStack-Learn aumenta o desempenho de um modelo de 30B em 9,7%, 9,5% e 2,8% nos três conjuntos de casos de teste através do autoaprimoramento, demonstrando a eficácia da nossa abordagem. O código é disponibilizado em https://github.com/mnluzimu/FullStack-Agent.

English

Assisting non-expert users to develop complex interactive websites has become a popular task for LLM-powered code agents. However, existing code agents tend to only generate frontend web pages, masking the lack of real full-stack data processing and storage with fancy visual effects. Notably, constructing production-level full-stack web applications is far more challenging than only generating frontend web pages, demanding careful control of data flow, comprehensive understanding of constantly updating packages and dependencies, and accurate localization of obscure bugs in the codebase. To address these difficulties, we introduce FullStack-Agent, a unified agent system for full-stack agentic coding that consists of three parts: (1) FullStack-Dev, a multi-agent framework with strong planning, code editing, codebase navigation, and bug localization abilities. (2) FullStack-Learn, an innovative data-scaling and self-improving method that back-translates crawled and synthesized website repositories to improve the backbone LLM of FullStack-Dev. (3) FullStack-Bench, a comprehensive benchmark that systematically tests the frontend, backend and database functionalities of the generated website. Our FullStack-Dev outperforms the previous state-of-the-art method by 8.7%, 38.2%, and 15.9% on the frontend, backend, and database test cases respectively. Additionally, FullStack-Learn raises the performance of a 30B model by 9.7%, 9.5%, and 2.8% on the three sets of test cases through self-improvement, demonstrating the effectiveness of our approach. The code is released at https://github.com/mnluzimu/FullStack-Agent.