WebGen-Agent: Mejorando la Generación Interactiva de Sitios Web con Retroalimentación Multinivel y Aprendizaje por Refuerzo a Nivel de Paso
WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning
September 26, 2025
Autores: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI
Resumen
Los sistemas de agentes impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de generación de código a nivel de repositorio. Sin embargo, para tareas como la generación de bases de código de sitios web, que dependen en gran medida de efectos visuales y retroalimentación de interacción del usuario, los agentes de código actuales solo se basan en la ejecución simple de código para obtener retroalimentación y verificación. Este enfoque no logra capturar la calidad real del código generado. En este artículo, proponemos WebGen-Agent, un agente novedoso para la generación de sitios web que aprovecha una retroalimentación visual integral y multinivel para generar y refinar iterativamente la base de código del sitio web. Descripciones y sugerencias detalladas y expresivas sobre las capturas de pantalla y las pruebas del agente de interfaz gráfica de usuario (GUI) de los sitios web son generadas por un modelo de lenguaje visual (VLM, por sus siglas en inglés), junto con puntuaciones que cuantifican su calidad. Las puntuaciones de las capturas de pantalla y del agente GUI se integran además con un mecanismo de retroceso y selección del mejor resultado, mejorando el rendimiento del agente. Utilizando las puntuaciones visuales precisas inherentes al flujo de trabajo de WebGen-Agent, introducimos además Step-GRPO con Retroalimentación de Capturas de Pantalla y Agente GUI para mejorar la capacidad de los LLMs de actuar como el motor de razonamiento de WebGen-Agent. Al utilizar las puntuaciones de capturas de pantalla y del agente GUI en cada paso como recompensa en Step-GRPO, proporcionamos una señal de supervisión de proceso densa y confiable, lo que mejora efectivamente la capacidad del modelo para generar sitios web. En el conjunto de datos WebGen-Bench, WebGen-Agent aumenta la precisión de Claude-3.5-Sonnet del 26.4% al 51.9% y su puntuación de apariencia de 3.0 a 3.9, superando al sistema de agentes más avanzado anterior. Además, nuestro enfoque de entrenamiento Step-GRPO aumenta la precisión de Qwen2.5-Coder-7B-Instruct del 38.9% al 45.4% y eleva la puntuación de apariencia de 3.4 a 3.7.
English
Agent systems powered by large language models (LLMs) have demonstrated
impressive performance on repository-level code-generation tasks. However, for
tasks such as website codebase generation, which depend heavily on visual
effects and user-interaction feedback, current code agents rely only on simple
code execution for feedback and verification. This approach fails to capture
the actual quality of the generated code. In this paper, we propose
WebGen-Agent, a novel website-generation agent that leverages comprehensive and
multi-level visual feedback to iteratively generate and refine the website
codebase. Detailed and expressive text descriptions and suggestions regarding
the screenshots and GUI-agent testing of the websites are generated by a visual
language model (VLM), together with scores that quantify their quality. The
screenshot and GUI-agent scores are further integrated with a backtracking and
select-best mechanism, enhancing the performance of the agent. Utilizing the
accurate visual scores inherent in the WebGen-Agent workflow, we further
introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve
the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using
the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we
provide a dense and reliable process supervision signal, which effectively
improves the model's website-generation ability. On the WebGen-Bench dataset,
WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9%
and its appearance score from 3.0 to 3.9, outperforming the previous
state-of-the-art agent system. Additionally, our Step-GRPO training approach
increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and
raises the appearance score from 3.4 to 3.7.