ChatPaper.aiChatPaper

WebGen-Agent: Aprimorando a Geração de Websites Interativos com Feedback Multinível e Aprendizado por Reforço em Nível de Etapa

WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

September 26, 2025
Autores: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI

Resumo

Sistemas de agentes alimentados por modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho impressionante em tarefas de geração de código em nível de repositório. No entanto, para tarefas como a geração de bases de código para websites, que dependem fortemente de efeitos visuais e feedback de interação do usuário, os agentes de código atuais dependem apenas de execuções simples de código para feedback e verificação. Essa abordagem não consegue capturar a qualidade real do código gerado. Neste artigo, propomos o WebGen-Agent, um novo agente de geração de websites que utiliza feedback visual abrangente e multi-nível para gerar e refinar iterativamente a base de código do website. Descrições e sugestões textuais detalhadas e expressivas sobre as capturas de tela e testes de GUI dos websites são geradas por um modelo de linguagem visual (VLM), juntamente com pontuações que quantificam sua qualidade. As pontuações das capturas de tela e do agente de GUI são ainda integradas com um mecanismo de retrocesso e seleção do melhor, aprimorando o desempenho do agente. Utilizando as pontuações visuais precisas inerentes ao fluxo de trabalho do WebGen-Agent, introduzimos ainda o Step-GRPO com Feedback de Captura de Tela e Agente de GUI para melhorar a capacidade dos LLMs de atuarem como o motor de raciocínio do WebGen-Agent. Ao usar as pontuações de captura de tela e do agente de GUI em cada etapa como recompensa no Step-GRPO, fornecemos um sinal de supervisão de processo denso e confiável, que efetivamente melhora a capacidade de geração de websites do modelo. No conjunto de dados WebGen-Bench, o WebGen-Agent aumenta a precisão do Claude-3.5-Sonnet de 26,4% para 51,9% e sua pontuação de aparência de 3,0 para 3,9, superando o sistema de agente estado da arte anterior. Além disso, nossa abordagem de treinamento Step-GRPO aumenta a precisão do Qwen2.5-Coder-7B-Instruct de 38,9% para 45,4% e eleva a pontuação de aparência de 3,4 para 3,7.
English
Agent systems powered by large language models (LLMs) have demonstrated impressive performance on repository-level code-generation tasks. However, for tasks such as website codebase generation, which depend heavily on visual effects and user-interaction feedback, current code agents rely only on simple code execution for feedback and verification. This approach fails to capture the actual quality of the generated code. In this paper, we propose WebGen-Agent, a novel website-generation agent that leverages comprehensive and multi-level visual feedback to iteratively generate and refine the website codebase. Detailed and expressive text descriptions and suggestions regarding the screenshots and GUI-agent testing of the websites are generated by a visual language model (VLM), together with scores that quantify their quality. The screenshot and GUI-agent scores are further integrated with a backtracking and select-best mechanism, enhancing the performance of the agent. Utilizing the accurate visual scores inherent in the WebGen-Agent workflow, we further introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we provide a dense and reliable process supervision signal, which effectively improves the model's website-generation ability. On the WebGen-Bench dataset, WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9% and its appearance score from 3.0 to 3.9, outperforming the previous state-of-the-art agent system. Additionally, our Step-GRPO training approach increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and raises the appearance score from 3.4 to 3.7.
PDF202September 29, 2025