ChatPaper.aiChatPaper

WebGen-Agent: Verbetering van Interactieve Websitegeneratie met Multi-Level Feedback en Stapsgewijze Reinforcement Learning

WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

September 26, 2025
Auteurs: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI

Samenvatting

Agent-systemen aangedreven door grote taalmodellen (LLMs) hebben indrukwekkende prestaties geleverd bij taken op repository-niveau voor codegeneratie. Voor taken zoals het genereren van website-codebases, die sterk afhankelijk zijn van visuele effecten en gebruikersinteractie-feedback, vertrouwen huidige code-agents echter alleen op eenvoudige code-uitvoering voor feedback en verificatie. Deze aanpak slaagt er niet in de werkelijke kwaliteit van de gegenereerde code vast te leggen. In dit artikel stellen we WebGen-Agent voor, een innovatieve website-generatie-agent die gebruikmaakt van uitgebreide en meerdere niveaus van visuele feedback om iteratief de website-codebase te genereren en te verfijnen. Gedetailleerde en expressieve tekstbeschrijvingen en suggesties met betrekking tot de screenshots en GUI-agent-testen van de websites worden gegenereerd door een visueel taalmodel (VLM), samen met scores die hun kwaliteit kwantificeren. De screenshot- en GUI-agent-scores worden verder geïntegreerd met een backtracking- en select-best-mechanisme, wat de prestaties van de agent verbetert. Door gebruik te maken van de nauwkeurige visuele scores die inherent zijn aan de WebGen-Agent-workflow, introduceren we verder Step-GRPO met Screenshot en GUI-agent Feedback om het vermogen van LLMs om te fungeren als het redeneerengine van WebGen-Agent te verbeteren. Door de screenshot- en GUI-agent-scores bij elke stap te gebruiken als beloning in Step-GRPO, bieden we een dicht en betrouwbaar procesbewakingssignaal, wat het vermogen van het model om websites te genereren effectief verbetert. Op de WebGen-Bench-dataset verhoogt WebGen-Agent de nauwkeurigheid van Claude-3.5-Sonnet van 26,4% naar 51,9% en de uiterlijk-score van 3,0 naar 3,9, wat beter is dan het vorige state-of-the-art agentsysteem. Daarnaast verhoogt onze Step-GRPO-trainingsaanpak de nauwkeurigheid van Qwen2.5-Coder-7B-Instruct van 38,9% naar 45,4% en verhoogt de uiterlijk-score van 3,4 naar 3,7.
English
Agent systems powered by large language models (LLMs) have demonstrated impressive performance on repository-level code-generation tasks. However, for tasks such as website codebase generation, which depend heavily on visual effects and user-interaction feedback, current code agents rely only on simple code execution for feedback and verification. This approach fails to capture the actual quality of the generated code. In this paper, we propose WebGen-Agent, a novel website-generation agent that leverages comprehensive and multi-level visual feedback to iteratively generate and refine the website codebase. Detailed and expressive text descriptions and suggestions regarding the screenshots and GUI-agent testing of the websites are generated by a visual language model (VLM), together with scores that quantify their quality. The screenshot and GUI-agent scores are further integrated with a backtracking and select-best mechanism, enhancing the performance of the agent. Utilizing the accurate visual scores inherent in the WebGen-Agent workflow, we further introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we provide a dense and reliable process supervision signal, which effectively improves the model's website-generation ability. On the WebGen-Bench dataset, WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9% and its appearance score from 3.0 to 3.9, outperforming the previous state-of-the-art agent system. Additionally, our Step-GRPO training approach increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and raises the appearance score from 3.4 to 3.7.
PDF202September 29, 2025