WebGen-Agent: Verbetering van Interactieve Websitegeneratie met Multi-Level Feedback en Stapsgewijze Reinforcement Learning
WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning
September 26, 2025
Auteurs: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI
Samenvatting
Agent-systemen aangedreven door grote taalmodellen (LLMs) hebben indrukwekkende prestaties geleverd bij taken op repository-niveau voor codegeneratie. Voor taken zoals het genereren van website-codebases, die sterk afhankelijk zijn van visuele effecten en gebruikersinteractie-feedback, vertrouwen huidige code-agents echter alleen op eenvoudige code-uitvoering voor feedback en verificatie. Deze aanpak slaagt er niet in de werkelijke kwaliteit van de gegenereerde code vast te leggen. In dit artikel stellen we WebGen-Agent voor, een innovatieve website-generatie-agent die gebruikmaakt van uitgebreide en meerdere niveaus van visuele feedback om iteratief de website-codebase te genereren en te verfijnen. Gedetailleerde en expressieve tekstbeschrijvingen en suggesties met betrekking tot de screenshots en GUI-agent-testen van de websites worden gegenereerd door een visueel taalmodel (VLM), samen met scores die hun kwaliteit kwantificeren. De screenshot- en GUI-agent-scores worden verder geïntegreerd met een backtracking- en select-best-mechanisme, wat de prestaties van de agent verbetert. Door gebruik te maken van de nauwkeurige visuele scores die inherent zijn aan de WebGen-Agent-workflow, introduceren we verder Step-GRPO met Screenshot en GUI-agent Feedback om het vermogen van LLMs om te fungeren als het redeneerengine van WebGen-Agent te verbeteren. Door de screenshot- en GUI-agent-scores bij elke stap te gebruiken als beloning in Step-GRPO, bieden we een dicht en betrouwbaar procesbewakingssignaal, wat het vermogen van het model om websites te genereren effectief verbetert. Op de WebGen-Bench-dataset verhoogt WebGen-Agent de nauwkeurigheid van Claude-3.5-Sonnet van 26,4% naar 51,9% en de uiterlijk-score van 3,0 naar 3,9, wat beter is dan het vorige state-of-the-art agentsysteem. Daarnaast verhoogt onze Step-GRPO-trainingsaanpak de nauwkeurigheid van Qwen2.5-Coder-7B-Instruct van 38,9% naar 45,4% en verhoogt de uiterlijk-score van 3,4 naar 3,7.
English
Agent systems powered by large language models (LLMs) have demonstrated
impressive performance on repository-level code-generation tasks. However, for
tasks such as website codebase generation, which depend heavily on visual
effects and user-interaction feedback, current code agents rely only on simple
code execution for feedback and verification. This approach fails to capture
the actual quality of the generated code. In this paper, we propose
WebGen-Agent, a novel website-generation agent that leverages comprehensive and
multi-level visual feedback to iteratively generate and refine the website
codebase. Detailed and expressive text descriptions and suggestions regarding
the screenshots and GUI-agent testing of the websites are generated by a visual
language model (VLM), together with scores that quantify their quality. The
screenshot and GUI-agent scores are further integrated with a backtracking and
select-best mechanism, enhancing the performance of the agent. Utilizing the
accurate visual scores inherent in the WebGen-Agent workflow, we further
introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve
the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using
the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we
provide a dense and reliable process supervision signal, which effectively
improves the model's website-generation ability. On the WebGen-Bench dataset,
WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9%
and its appearance score from 3.0 to 3.9, outperforming the previous
state-of-the-art agent system. Additionally, our Step-GRPO training approach
increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and
raises the appearance score from 3.4 to 3.7.