WebGen-Agent: Улучшение интерактивной генерации веб-сайтов с использованием многоуровневой обратной связи и пошагового обучения с подкреплением
WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning
September 26, 2025
Авторы: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI
Аннотация
Системы агентов, основанные на больших языковых моделях (LLM), продемонстрировали впечатляющие результаты в задачах генерации кода на уровне репозиториев. Однако для задач, таких как генерация кодовой базы веб-сайтов, которые сильно зависят от визуальных эффектов и обратной связи от взаимодействия с пользователем, текущие агенты полагаются только на простое выполнение кода для получения обратной связи и проверки. Такой подход не позволяет оценить фактическое качество сгенерированного кода. В данной статье мы предлагаем WebGen-Agent — новый агент для генерации веб-сайтов, который использует комплексную и многоуровневую визуальную обратную связь для итеративной генерации и улучшения кодовой базы веб-сайта. Детальные и выразительные текстовые описания и предложения, касающиеся скриншотов и тестирования GUI-агента веб-сайтов, генерируются визуальной языковой моделью (VLM), а также предоставляются оценки, количественно определяющие их качество. Оценки скриншотов и GUI-агента интегрируются с механизмом возврата и выбора лучшего варианта, что повышает производительность агента. Используя точные визуальные оценки, встроенные в рабочий процесс WebGen-Agent, мы также представляем Step-GRPO с обратной связью по скриншотам и GUI-агенту, чтобы улучшить способность LLM выступать в качестве механизма рассуждения для WebGen-Agent. Используя оценки скриншотов и GUI-агента на каждом шаге в качестве награды в Step-GRPO, мы обеспечиваем плотный и надежный сигнал процессуального контроля, что эффективно повышает способность модели к генерации веб-сайтов. На наборе данных WebGen-Bench WebGen-Agent увеличивает точность Claude-3.5-Sonnet с 26,4% до 51,9% и его оценку внешнего вида с 3,0 до 3,9, превосходя предыдущую систему-лидер. Кроме того, наш подход к обучению Step-GRPO повышает точность Qwen2.5-Coder-7B-Instruct с 38,9% до 45,4% и увеличивает оценку внешнего вида с 3,4 до 3,7.
English
Agent systems powered by large language models (LLMs) have demonstrated
impressive performance on repository-level code-generation tasks. However, for
tasks such as website codebase generation, which depend heavily on visual
effects and user-interaction feedback, current code agents rely only on simple
code execution for feedback and verification. This approach fails to capture
the actual quality of the generated code. In this paper, we propose
WebGen-Agent, a novel website-generation agent that leverages comprehensive and
multi-level visual feedback to iteratively generate and refine the website
codebase. Detailed and expressive text descriptions and suggestions regarding
the screenshots and GUI-agent testing of the websites are generated by a visual
language model (VLM), together with scores that quantify their quality. The
screenshot and GUI-agent scores are further integrated with a backtracking and
select-best mechanism, enhancing the performance of the agent. Utilizing the
accurate visual scores inherent in the WebGen-Agent workflow, we further
introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve
the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using
the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we
provide a dense and reliable process supervision signal, which effectively
improves the model's website-generation ability. On the WebGen-Bench dataset,
WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9%
and its appearance score from 3.0 to 3.9, outperforming the previous
state-of-the-art agent system. Additionally, our Step-GRPO training approach
increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and
raises the appearance score from 3.4 to 3.7.