ChatPaper.aiChatPaper

WebGen-Agent: Mejorando la Generación Interactiva de Sitios Web con Retroalimentación Multinivel y Aprendizaje por Refuerzo a Nivel de Paso

WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

September 26, 2025
Autores: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI

Resumen

Los sistemas de agentes impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de generación de código a nivel de repositorio. Sin embargo, para tareas como la generación de bases de código de sitios web, que dependen en gran medida de efectos visuales y retroalimentación de interacción del usuario, los agentes de código actuales solo se basan en la ejecución simple de código para obtener retroalimentación y verificación. Este enfoque no logra capturar la calidad real del código generado. En este artículo, proponemos WebGen-Agent, un agente novedoso para la generación de sitios web que aprovecha una retroalimentación visual integral y multinivel para generar y refinar iterativamente la base de código del sitio web. Descripciones y sugerencias detalladas y expresivas sobre las capturas de pantalla y las pruebas del agente de interfaz gráfica de usuario (GUI) de los sitios web son generadas por un modelo de lenguaje visual (VLM, por sus siglas en inglés), junto con puntuaciones que cuantifican su calidad. Las puntuaciones de las capturas de pantalla y del agente GUI se integran además con un mecanismo de retroceso y selección del mejor resultado, mejorando el rendimiento del agente. Utilizando las puntuaciones visuales precisas inherentes al flujo de trabajo de WebGen-Agent, introducimos además Step-GRPO con Retroalimentación de Capturas de Pantalla y Agente GUI para mejorar la capacidad de los LLMs de actuar como el motor de razonamiento de WebGen-Agent. Al utilizar las puntuaciones de capturas de pantalla y del agente GUI en cada paso como recompensa en Step-GRPO, proporcionamos una señal de supervisión de proceso densa y confiable, lo que mejora efectivamente la capacidad del modelo para generar sitios web. En el conjunto de datos WebGen-Bench, WebGen-Agent aumenta la precisión de Claude-3.5-Sonnet del 26.4% al 51.9% y su puntuación de apariencia de 3.0 a 3.9, superando al sistema de agentes más avanzado anterior. Además, nuestro enfoque de entrenamiento Step-GRPO aumenta la precisión de Qwen2.5-Coder-7B-Instruct del 38.9% al 45.4% y eleva la puntuación de apariencia de 3.4 a 3.7.
English
Agent systems powered by large language models (LLMs) have demonstrated impressive performance on repository-level code-generation tasks. However, for tasks such as website codebase generation, which depend heavily on visual effects and user-interaction feedback, current code agents rely only on simple code execution for feedback and verification. This approach fails to capture the actual quality of the generated code. In this paper, we propose WebGen-Agent, a novel website-generation agent that leverages comprehensive and multi-level visual feedback to iteratively generate and refine the website codebase. Detailed and expressive text descriptions and suggestions regarding the screenshots and GUI-agent testing of the websites are generated by a visual language model (VLM), together with scores that quantify their quality. The screenshot and GUI-agent scores are further integrated with a backtracking and select-best mechanism, enhancing the performance of the agent. Utilizing the accurate visual scores inherent in the WebGen-Agent workflow, we further introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we provide a dense and reliable process supervision signal, which effectively improves the model's website-generation ability. On the WebGen-Bench dataset, WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9% and its appearance score from 3.0 to 3.9, outperforming the previous state-of-the-art agent system. Additionally, our Step-GRPO training approach increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and raises the appearance score from 3.4 to 3.7.
PDF162September 29, 2025