WebGen-Agent: Aprimorando a Geração de Websites Interativos com Feedback Multinível e Aprendizado por Reforço em Nível de Etapa
WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning
September 26, 2025
Autores: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI
Resumo
Sistemas de agentes alimentados por modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho impressionante em tarefas de geração de código em nível de repositório. No entanto, para tarefas como a geração de bases de código para websites, que dependem fortemente de efeitos visuais e feedback de interação do usuário, os agentes de código atuais dependem apenas de execuções simples de código para feedback e verificação. Essa abordagem não consegue capturar a qualidade real do código gerado. Neste artigo, propomos o WebGen-Agent, um novo agente de geração de websites que utiliza feedback visual abrangente e multi-nível para gerar e refinar iterativamente a base de código do website. Descrições e sugestões textuais detalhadas e expressivas sobre as capturas de tela e testes de GUI dos websites são geradas por um modelo de linguagem visual (VLM), juntamente com pontuações que quantificam sua qualidade. As pontuações das capturas de tela e do agente de GUI são ainda integradas com um mecanismo de retrocesso e seleção do melhor, aprimorando o desempenho do agente. Utilizando as pontuações visuais precisas inerentes ao fluxo de trabalho do WebGen-Agent, introduzimos ainda o Step-GRPO com Feedback de Captura de Tela e Agente de GUI para melhorar a capacidade dos LLMs de atuarem como o motor de raciocínio do WebGen-Agent. Ao usar as pontuações de captura de tela e do agente de GUI em cada etapa como recompensa no Step-GRPO, fornecemos um sinal de supervisão de processo denso e confiável, que efetivamente melhora a capacidade de geração de websites do modelo. No conjunto de dados WebGen-Bench, o WebGen-Agent aumenta a precisão do Claude-3.5-Sonnet de 26,4% para 51,9% e sua pontuação de aparência de 3,0 para 3,9, superando o sistema de agente estado da arte anterior. Além disso, nossa abordagem de treinamento Step-GRPO aumenta a precisão do Qwen2.5-Coder-7B-Instruct de 38,9% para 45,4% e eleva a pontuação de aparência de 3,4 para 3,7.
English
Agent systems powered by large language models (LLMs) have demonstrated
impressive performance on repository-level code-generation tasks. However, for
tasks such as website codebase generation, which depend heavily on visual
effects and user-interaction feedback, current code agents rely only on simple
code execution for feedback and verification. This approach fails to capture
the actual quality of the generated code. In this paper, we propose
WebGen-Agent, a novel website-generation agent that leverages comprehensive and
multi-level visual feedback to iteratively generate and refine the website
codebase. Detailed and expressive text descriptions and suggestions regarding
the screenshots and GUI-agent testing of the websites are generated by a visual
language model (VLM), together with scores that quantify their quality. The
screenshot and GUI-agent scores are further integrated with a backtracking and
select-best mechanism, enhancing the performance of the agent. Utilizing the
accurate visual scores inherent in the WebGen-Agent workflow, we further
introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve
the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using
the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we
provide a dense and reliable process supervision signal, which effectively
improves the model's website-generation ability. On the WebGen-Bench dataset,
WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9%
and its appearance score from 3.0 to 3.9, outperforming the previous
state-of-the-art agent system. Additionally, our Step-GRPO training approach
increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and
raises the appearance score from 3.4 to 3.7.