FullStack-Agent: Улучшение агентного FullStack веб-программирования с помощью ориентированного на разработку тестирования и обратного перевода репозитория

Аннотация

Помощь неискусным пользователям в разработке сложных интерактивных веб-сайтов стала популярной задачей для код-агентов на основе больших языковых моделей (LLM). Однако существующие код-агенты зачастую генерируют только фронтенд-страницы, маскируя отсутствие реальной полноценной обработки данных и хранения за счет визуальных эффектов. Примечательно, что создание промышленных полнофункциональных веб-приложений значительно сложнее простой генерации фронтенда, требуя тщательного контроля за потоками данных, всестороннего понимания постоянно обновляемых пакетов и зависимостей, а также точной локализации трудноуловимых ошибок в кодовой базе. Для решения этих проблем мы представляем FullStack-Agent — унифицированную агентную систему для полнофункционального агентного кодирования, состоящую из трех частей: (1) FullStack-Dev, мультиагентный фреймворк с мощными возможностями планирования, редактирования кода, навигации по кодовой базе и локализации ошибок; (2) FullStack-Learn, инновационный метод масштабирования данных и самосовершенствования, который осуществляет обратный перевод собранных и синтезированных репозиториев веб-сайтов для улучшения базовой LLM в FullStack-Dev; (3) FullStack-Bench, комплексный бенчмарк, систематически тестирующий фронтенд, бэкенд и функциональность базы данных сгенерированного сайта. Наш FullStack-Dev превосходит предыдущий state-of-the-art метод на 8,7%, 38,2% и 15,9% в тестах фронтенда, бэкенда и базы данных соответственно. Кроме того, FullStack-Learn повышает производительность модели на 30 млрд параметров на 9,7%, 9,5% и 2,8% по трем наборам тестов за счет самосовершенствования, демонстрируя эффективность нашего подхода. Код доступен по адресу https://github.com/mnluzimu/FullStack-Agent.

English

Assisting non-expert users to develop complex interactive websites has become a popular task for LLM-powered code agents. However, existing code agents tend to only generate frontend web pages, masking the lack of real full-stack data processing and storage with fancy visual effects. Notably, constructing production-level full-stack web applications is far more challenging than only generating frontend web pages, demanding careful control of data flow, comprehensive understanding of constantly updating packages and dependencies, and accurate localization of obscure bugs in the codebase. To address these difficulties, we introduce FullStack-Agent, a unified agent system for full-stack agentic coding that consists of three parts: (1) FullStack-Dev, a multi-agent framework with strong planning, code editing, codebase navigation, and bug localization abilities. (2) FullStack-Learn, an innovative data-scaling and self-improving method that back-translates crawled and synthesized website repositories to improve the backbone LLM of FullStack-Dev. (3) FullStack-Bench, a comprehensive benchmark that systematically tests the frontend, backend and database functionalities of the generated website. Our FullStack-Dev outperforms the previous state-of-the-art method by 8.7%, 38.2%, and 15.9% on the frontend, backend, and database test cases respectively. Additionally, FullStack-Learn raises the performance of a 30B model by 9.7%, 9.5%, and 2.8% on the three sets of test cases through self-improvement, demonstrating the effectiveness of our approach. The code is released at https://github.com/mnluzimu/FullStack-Agent.

FullStack-Agent: Улучшение агентного FullStack веб-программирования с помощью ориентированного на разработку тестирования и обратного перевода репозитория

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Аннотация

Support