WebGen-Agent: Verbesserung der interaktiven Website-Generierung durch mehrstufiges Feedback und schrittweises Reinforcement Learning
WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning
September 26, 2025
papers.authors: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI
papers.abstract
Agentensysteme, die von großen Sprachmodellen (LLMs) angetrieben werden, haben beeindruckende Leistungen bei Aufgaben zur Code-Generierung auf Repository-Ebene gezeigt. Für Aufgaben wie die Generierung von Website-Codebasen, die stark von visuellen Effekten und Benutzerinteraktions-Feedback abhängen, verlassen sich aktuelle Code-Agenten jedoch nur auf einfache Code-Ausführung für Feedback und Verifizierung. Dieser Ansatz erfasst nicht die tatsächliche Qualität des generierten Codes. In diesem Artikel schlagen wir WebGen-Agent vor, einen neuartigen Website-Generierungs-Agenten, der umfassendes und mehrstufiges visuelles Feedback nutzt, um die Website-Codebasis iterativ zu generieren und zu verfeinern. Detaillierte und ausdrucksstarke Textbeschreibungen und Vorschläge bezüglich der Screenshots und GUI-Agent-Tests der Websites werden von einem visuellen Sprachmodell (VLM) generiert, zusammen mit Bewertungen, die deren Qualität quantifizieren. Die Screenshot- und GUI-Agent-Bewertungen werden weiterhin mit einem Backtracking- und Select-Best-Mechanismus integriert, wodurch die Leistung des Agenten verbessert wird. Durch die Nutzung der präzisen visuellen Bewertungen, die im WebGen-Agent-Workflow enthalten sind, führen wir Step-GRPO mit Screenshot- und GUI-Agent-Feedback ein, um die Fähigkeit von LLMs zu verbessern, als Reasoning-Engine von WebGen-Agent zu fungieren. Indem wir die Screenshot- und GUI-Agent-Bewertungen in jedem Schritt als Belohnung in Step-GRPO verwenden, bieten wir ein dichtes und zuverlässiges Prozessüberwachungssignal, das die Website-Generierungsfähigkeit des Modells effektiv verbessert. Auf dem WebGen-Bench-Datensatz erhöht WebGen-Agent die Genauigkeit von Claude-3.5-Sonnet von 26,4 % auf 51,9 % und dessen Erscheinungsbewertung von 3,0 auf 3,9, womit er das bisherige state-of-the-art Agentensystem übertrifft. Zusätzlich erhöht unser Step-GRPO-Trainingsansatz die Genauigkeit von Qwen2.5-Coder-7B-Instruct von 38,9 % auf 45,4 % und steigert die Erscheinungsbewertung von 3,4 auf 3,7.
English
Agent systems powered by large language models (LLMs) have demonstrated
impressive performance on repository-level code-generation tasks. However, for
tasks such as website codebase generation, which depend heavily on visual
effects and user-interaction feedback, current code agents rely only on simple
code execution for feedback and verification. This approach fails to capture
the actual quality of the generated code. In this paper, we propose
WebGen-Agent, a novel website-generation agent that leverages comprehensive and
multi-level visual feedback to iteratively generate and refine the website
codebase. Detailed and expressive text descriptions and suggestions regarding
the screenshots and GUI-agent testing of the websites are generated by a visual
language model (VLM), together with scores that quantify their quality. The
screenshot and GUI-agent scores are further integrated with a backtracking and
select-best mechanism, enhancing the performance of the agent. Utilizing the
accurate visual scores inherent in the WebGen-Agent workflow, we further
introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve
the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using
the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we
provide a dense and reliable process supervision signal, which effectively
improves the model's website-generation ability. On the WebGen-Bench dataset,
WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9%
and its appearance score from 3.0 to 3.9, outperforming the previous
state-of-the-art agent system. Additionally, our Step-GRPO training approach
increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and
raises the appearance score from 3.4 to 3.7.