WebGen-Bench: Evaluación de LLMs en la Generación de Sitios Web Interactivos y Funcionales desde Cero
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
May 6, 2025
Autores: Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li
cs.AI
Resumen
Los agentes basados en LLM han demostrado un gran potencial en la generación y gestión de código dentro de bases de código complejas. En este artículo, presentamos WebGen-Bench, un nuevo benchmark diseñado para medir la capacidad de un agente basado en LLM para crear bases de código de sitios web multifile desde cero. Contiene instrucciones diversas para la generación de sitios web, creadas mediante el esfuerzo combinado de anotadores humanos y GPT-4o. Estas instrucciones abarcan tres categorías principales y trece categorías menores, cubriendo casi todos los tipos importantes de aplicaciones web. Para evaluar la calidad de los sitios web generados, utilizamos GPT-4o para generar casos de prueba dirigidos a cada funcionalidad descrita en las instrucciones, y luego los filtramos, ajustamos y organizamos manualmente para garantizar su precisión, lo que resulta en 647 casos de prueba. Cada caso de prueba especifica una operación que debe realizarse en el sitio web y el resultado esperado después de la operación. Para automatizar las pruebas y mejorar la reproducibilidad, empleamos un potente agente de navegación web para ejecutar pruebas en los sitios web generados y determinar si las respuestas observadas coinciden con los resultados esperados. Evaluamos tres frameworks de agentes de código de alto rendimiento, Bolt.diy, OpenHands y Aider, utilizando múltiples LLM propietarios y de código abierto como motores. La combinación con mejor rendimiento, Bolt.diy impulsado por DeepSeek-R1, logra solo un 27,8\% de precisión en los casos de prueba, lo que destaca la naturaleza desafiante de nuestro benchmark. Además, construimos WebGen-Instruct, un conjunto de entrenamiento que consta de 6.667 instrucciones para la generación de sitios web. Entrenar Qwen2.5-Coder-32B-Instruct en trayectorias de Bolt.diy generadas a partir de un subconjunto de este conjunto de entrenamiento alcanza una precisión del 38,2\%, superando el rendimiento del mejor modelo propietario.
English
LLM-based agents have demonstrated great potential in generating and managing
code within complex codebases. In this paper, we introduce WebGen-Bench, a
novel benchmark designed to measure an LLM-based agent's ability to create
multi-file website codebases from scratch. It contains diverse instructions for
website generation, created through the combined efforts of human annotators
and GPT-4o. These instructions span three major categories and thirteen minor
categories, encompassing nearly all important types of web applications. To
assess the quality of the generated websites, we use GPT-4o to generate test
cases targeting each functionality described in the instructions, and then
manually filter, adjust, and organize them to ensure accuracy, resulting in 647
test cases. Each test case specifies an operation to be performed on the
website and the expected result after the operation. To automate testing and
improve reproducibility, we employ a powerful web-navigation agent to execute
tests on the generated websites and determine whether the observed responses
align with the expected results. We evaluate three high-performance code-agent
frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and
open-source LLMs as engines. The best-performing combination, Bolt.diy powered
by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting
the challenging nature of our benchmark. Additionally, we construct
WebGen-Instruct, a training set consisting of 6,667 website-generation
instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories
generated from a subset of this training set achieves an accuracy of 38.2\%,
surpassing the performance of the best proprietary model.Summary
AI-Generated Summary