FullStack-Agent: Mejora de la Programación Web Full-Stack Agéntica mediante Pruebas Orientadas al Desarrollo y Retro-traducción de Repositorios

Resumen

Ayudar a usuarios no expertos a desarrollar sitios web interactivos complejos se ha convertido en una tarea popular para los agentes de código basados en LLM. Sin embargo, los agentes de código existentes tienden a generar solo páginas web frontend, enmascarando la falta de procesamiento y almacenamiento de datos full-stack real con efectos visuales llamativos. Cabe destacar que la construcción de aplicaciones web full-stack de nivel productivo es mucho más desafiante que solo generar páginas frontend, ya que exige un control cuidadoso del flujo de datos, una comprensión integral de paquetes y dependencias en constante actualización, y una localización precisa de errores oscuros en la base de código. Para abordar estas dificultades, presentamos FullStack-Agent, un sistema de agente unificado para la codificación agentiva full-stack que consta de tres partes: (1) FullStack-Dev, un marco multiagente con fuertes capacidades de planificación, edición de código, navegación de bases de código y localización de errores. (2) FullStack-Learn, un método innovador de escalado de datos y auto-mejora que retro-traduce repositorios de sitios web rastreados y sintetizados para mejorar el modelo LLM base de FullStack-Dev. (3) FullStack-Bench, un benchmark integral que prueba sistemáticamente las funcionalidades frontend, backend y de base de datos del sitio web generado. Nuestro FullStack-Dev supera al método estado del arte anterior en un 8.7%, 38.2% y 15.9% en los casos de prueba de frontend, backend y base de datos, respectivamente. Adicionalmente, FullStack-Learn aumenta el rendimiento de un modelo de 30B en un 9.7%, 9.5% y 2.8% en los tres conjuntos de casos de prueba mediante la auto-mejora, demostrando la efectividad de nuestro enfoque. El código se ha publicado en https://github.com/mnluzimu/FullStack-Agent.

English

Assisting non-expert users to develop complex interactive websites has become a popular task for LLM-powered code agents. However, existing code agents tend to only generate frontend web pages, masking the lack of real full-stack data processing and storage with fancy visual effects. Notably, constructing production-level full-stack web applications is far more challenging than only generating frontend web pages, demanding careful control of data flow, comprehensive understanding of constantly updating packages and dependencies, and accurate localization of obscure bugs in the codebase. To address these difficulties, we introduce FullStack-Agent, a unified agent system for full-stack agentic coding that consists of three parts: (1) FullStack-Dev, a multi-agent framework with strong planning, code editing, codebase navigation, and bug localization abilities. (2) FullStack-Learn, an innovative data-scaling and self-improving method that back-translates crawled and synthesized website repositories to improve the backbone LLM of FullStack-Dev. (3) FullStack-Bench, a comprehensive benchmark that systematically tests the frontend, backend and database functionalities of the generated website. Our FullStack-Dev outperforms the previous state-of-the-art method by 8.7%, 38.2%, and 15.9% on the frontend, backend, and database test cases respectively. Additionally, FullStack-Learn raises the performance of a 30B model by 9.7%, 9.5%, and 2.8% on the three sets of test cases through self-improvement, demonstrating the effectiveness of our approach. The code is released at https://github.com/mnluzimu/FullStack-Agent.

FullStack-Agent: Mejora de la Programación Web Full-Stack Agéntica mediante Pruebas Orientadas al Desarrollo y Retro-traducción de Repositorios

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Resumen

Support