WebGen-Agent : Amélioration de la génération interactive de sites web grâce à des retours multi-niveaux et à un apprentissage par renforcement étape par étape

Résumé

Les systèmes d'agents alimentés par des modèles de langage de grande taille (LLMs) ont démontré des performances impressionnantes dans les tâches de génération de code au niveau des dépôts. Cependant, pour des tâches telles que la génération de bases de code de sites web, qui dépendent fortement des effets visuels et des retours d'interaction utilisateur, les agents de code actuels s'appuient uniquement sur une exécution simple du code pour obtenir des retours et des vérifications. Cette approche ne parvient pas à capturer la qualité réelle du code généré. Dans cet article, nous proposons WebGen-Agent, un nouvel agent de génération de sites web qui exploite des retours visuels complets et multi-niveaux pour générer et affiner de manière itérative la base de code du site web. Des descriptions et suggestions textuelles détaillées et expressives concernant les captures d'écran et les tests d'agent GUI des sites web sont générées par un modèle de langage visuel (VLM), accompagnées de scores quantifiant leur qualité. Les scores des captures d'écran et de l'agent GUI sont ensuite intégrés avec un mécanisme de retour en arrière et de sélection du meilleur, améliorant ainsi les performances de l'agent. En utilisant les scores visuels précis inhérents au flux de travail de WebGen-Agent, nous introduisons également Step-GRPO avec Retours de Capture d'Écran et d'Agent GUI pour améliorer la capacité des LLMs à agir comme moteur de raisonnement de WebGen-Agent. En utilisant les scores de capture d'écran et d'agent GUI à chaque étape comme récompense dans Step-GRPO, nous fournissons un signal de supervision de processus dense et fiable, ce qui améliore efficacement la capacité du modèle à générer des sites web. Sur le jeu de données WebGen-Bench, WebGen-Agent augmente la précision de Claude-3.5-Sonnet de 26,4 % à 51,9 % et son score d'apparence de 3,0 à 3,9, surpassant le système d'agent précédent de pointe. De plus, notre approche d'entraînement Step-GRPO augmente la précision de Qwen2.5-Coder-7B-Instruct de 38,9 % à 45,4 % et élève le score d'apparence de 3,4 à 3,7.

English

Agent systems powered by large language models (LLMs) have demonstrated impressive performance on repository-level code-generation tasks. However, for tasks such as website codebase generation, which depend heavily on visual effects and user-interaction feedback, current code agents rely only on simple code execution for feedback and verification. This approach fails to capture the actual quality of the generated code. In this paper, we propose WebGen-Agent, a novel website-generation agent that leverages comprehensive and multi-level visual feedback to iteratively generate and refine the website codebase. Detailed and expressive text descriptions and suggestions regarding the screenshots and GUI-agent testing of the websites are generated by a visual language model (VLM), together with scores that quantify their quality. The screenshot and GUI-agent scores are further integrated with a backtracking and select-best mechanism, enhancing the performance of the agent. Utilizing the accurate visual scores inherent in the WebGen-Agent workflow, we further introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we provide a dense and reliable process supervision signal, which effectively improves the model's website-generation ability. On the WebGen-Bench dataset, WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9% and its appearance score from 3.0 to 3.9, outperforming the previous state-of-the-art agent system. Additionally, our Step-GRPO training approach increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and raises the appearance score from 3.4 to 3.7.