WebGen-Agent: Verbesserung der interaktiven Website-Generierung durch mehrstufiges Feedback und schrittweises Reinforcement Learning

Zusammenfassung

Agentensysteme, die von großen Sprachmodellen (LLMs) angetrieben werden, haben beeindruckende Leistungen bei Aufgaben zur Code-Generierung auf Repository-Ebene gezeigt. Für Aufgaben wie die Generierung von Website-Codebasen, die stark von visuellen Effekten und Benutzerinteraktions-Feedback abhängen, verlassen sich aktuelle Code-Agenten jedoch nur auf einfache Code-Ausführung für Feedback und Verifizierung. Dieser Ansatz erfasst nicht die tatsächliche Qualität des generierten Codes. In diesem Artikel schlagen wir WebGen-Agent vor, einen neuartigen Website-Generierungs-Agenten, der umfassendes und mehrstufiges visuelles Feedback nutzt, um die Website-Codebasis iterativ zu generieren und zu verfeinern. Detaillierte und ausdrucksstarke Textbeschreibungen und Vorschläge bezüglich der Screenshots und GUI-Agent-Tests der Websites werden von einem visuellen Sprachmodell (VLM) generiert, zusammen mit Bewertungen, die deren Qualität quantifizieren. Die Screenshot- und GUI-Agent-Bewertungen werden weiterhin mit einem Backtracking- und Select-Best-Mechanismus integriert, wodurch die Leistung des Agenten verbessert wird. Durch die Nutzung der präzisen visuellen Bewertungen, die im WebGen-Agent-Workflow enthalten sind, führen wir Step-GRPO mit Screenshot- und GUI-Agent-Feedback ein, um die Fähigkeit von LLMs zu verbessern, als Reasoning-Engine von WebGen-Agent zu fungieren. Indem wir die Screenshot- und GUI-Agent-Bewertungen in jedem Schritt als Belohnung in Step-GRPO verwenden, bieten wir ein dichtes und zuverlässiges Prozessüberwachungssignal, das die Website-Generierungsfähigkeit des Modells effektiv verbessert. Auf dem WebGen-Bench-Datensatz erhöht WebGen-Agent die Genauigkeit von Claude-3.5-Sonnet von 26,4 % auf 51,9 % und dessen Erscheinungsbewertung von 3,0 auf 3,9, womit er das bisherige state-of-the-art Agentensystem übertrifft. Zusätzlich erhöht unser Step-GRPO-Trainingsansatz die Genauigkeit von Qwen2.5-Coder-7B-Instruct von 38,9 % auf 45,4 % und steigert die Erscheinungsbewertung von 3,4 auf 3,7.

English

Agent systems powered by large language models (LLMs) have demonstrated impressive performance on repository-level code-generation tasks. However, for tasks such as website codebase generation, which depend heavily on visual effects and user-interaction feedback, current code agents rely only on simple code execution for feedback and verification. This approach fails to capture the actual quality of the generated code. In this paper, we propose WebGen-Agent, a novel website-generation agent that leverages comprehensive and multi-level visual feedback to iteratively generate and refine the website codebase. Detailed and expressive text descriptions and suggestions regarding the screenshots and GUI-agent testing of the websites are generated by a visual language model (VLM), together with scores that quantify their quality. The screenshot and GUI-agent scores are further integrated with a backtracking and select-best mechanism, enhancing the performance of the agent. Utilizing the accurate visual scores inherent in the WebGen-Agent workflow, we further introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we provide a dense and reliable process supervision signal, which effectively improves the model's website-generation ability. On the WebGen-Bench dataset, WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9% and its appearance score from 3.0 to 3.9, outperforming the previous state-of-the-art agent system. Additionally, our Step-GRPO training approach increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and raises the appearance score from 3.4 to 3.7.