ChatPaper.aiChatPaper

WebGen-Agent: Улучшение интерактивной генерации веб-сайтов с использованием многоуровневой обратной связи и пошагового обучения с подкреплением

WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

September 26, 2025
Авторы: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI

Аннотация

Системы агентов, основанные на больших языковых моделях (LLM), продемонстрировали впечатляющие результаты в задачах генерации кода на уровне репозиториев. Однако для задач, таких как генерация кодовой базы веб-сайтов, которые сильно зависят от визуальных эффектов и обратной связи от взаимодействия с пользователем, текущие агенты полагаются только на простое выполнение кода для получения обратной связи и проверки. Такой подход не позволяет оценить фактическое качество сгенерированного кода. В данной статье мы предлагаем WebGen-Agent — новый агент для генерации веб-сайтов, который использует комплексную и многоуровневую визуальную обратную связь для итеративной генерации и улучшения кодовой базы веб-сайта. Детальные и выразительные текстовые описания и предложения, касающиеся скриншотов и тестирования GUI-агента веб-сайтов, генерируются визуальной языковой моделью (VLM), а также предоставляются оценки, количественно определяющие их качество. Оценки скриншотов и GUI-агента интегрируются с механизмом возврата и выбора лучшего варианта, что повышает производительность агента. Используя точные визуальные оценки, встроенные в рабочий процесс WebGen-Agent, мы также представляем Step-GRPO с обратной связью по скриншотам и GUI-агенту, чтобы улучшить способность LLM выступать в качестве механизма рассуждения для WebGen-Agent. Используя оценки скриншотов и GUI-агента на каждом шаге в качестве награды в Step-GRPO, мы обеспечиваем плотный и надежный сигнал процессуального контроля, что эффективно повышает способность модели к генерации веб-сайтов. На наборе данных WebGen-Bench WebGen-Agent увеличивает точность Claude-3.5-Sonnet с 26,4% до 51,9% и его оценку внешнего вида с 3,0 до 3,9, превосходя предыдущую систему-лидер. Кроме того, наш подход к обучению Step-GRPO повышает точность Qwen2.5-Coder-7B-Instruct с 38,9% до 45,4% и увеличивает оценку внешнего вида с 3,4 до 3,7.
English
Agent systems powered by large language models (LLMs) have demonstrated impressive performance on repository-level code-generation tasks. However, for tasks such as website codebase generation, which depend heavily on visual effects and user-interaction feedback, current code agents rely only on simple code execution for feedback and verification. This approach fails to capture the actual quality of the generated code. In this paper, we propose WebGen-Agent, a novel website-generation agent that leverages comprehensive and multi-level visual feedback to iteratively generate and refine the website codebase. Detailed and expressive text descriptions and suggestions regarding the screenshots and GUI-agent testing of the websites are generated by a visual language model (VLM), together with scores that quantify their quality. The screenshot and GUI-agent scores are further integrated with a backtracking and select-best mechanism, enhancing the performance of the agent. Utilizing the accurate visual scores inherent in the WebGen-Agent workflow, we further introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we provide a dense and reliable process supervision signal, which effectively improves the model's website-generation ability. On the WebGen-Bench dataset, WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9% and its appearance score from 3.0 to 3.9, outperforming the previous state-of-the-art agent system. Additionally, our Step-GRPO training approach increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and raises the appearance score from 3.4 to 3.7.
PDF162September 29, 2025