WebGen-Bench: Evaluación de LLMs en la Generación de Sitios Web Interactivos y Funcionales desde Cero

Resumen

Los agentes basados en LLM han demostrado un gran potencial en la generación y gestión de código dentro de bases de código complejas. En este artículo, presentamos WebGen-Bench, un nuevo benchmark diseñado para medir la capacidad de un agente basado en LLM para crear bases de código de sitios web multifile desde cero. Contiene instrucciones diversas para la generación de sitios web, creadas mediante el esfuerzo combinado de anotadores humanos y GPT-4o. Estas instrucciones abarcan tres categorías principales y trece categorías menores, cubriendo casi todos los tipos importantes de aplicaciones web. Para evaluar la calidad de los sitios web generados, utilizamos GPT-4o para generar casos de prueba dirigidos a cada funcionalidad descrita en las instrucciones, y luego los filtramos, ajustamos y organizamos manualmente para garantizar su precisión, lo que resulta en 647 casos de prueba. Cada caso de prueba especifica una operación que debe realizarse en el sitio web y el resultado esperado después de la operación. Para automatizar las pruebas y mejorar la reproducibilidad, empleamos un potente agente de navegación web para ejecutar pruebas en los sitios web generados y determinar si las respuestas observadas coinciden con los resultados esperados. Evaluamos tres frameworks de agentes de código de alto rendimiento, Bolt.diy, OpenHands y Aider, utilizando múltiples LLM propietarios y de código abierto como motores. La combinación con mejor rendimiento, Bolt.diy impulsado por DeepSeek-R1, logra solo un 27,8\% de precisión en los casos de prueba, lo que destaca la naturaleza desafiante de nuestro benchmark. Además, construimos WebGen-Instruct, un conjunto de entrenamiento que consta de 6.667 instrucciones para la generación de sitios web. Entrenar Qwen2.5-Coder-32B-Instruct en trayectorias de Bolt.diy generadas a partir de un subconjunto de este conjunto de entrenamiento alcanza una precisión del 38,2\%, superando el rendimiento del mejor modelo propietario.

English

LLM-based agents have demonstrated great potential in generating and managing code within complex codebases. In this paper, we introduce WebGen-Bench, a novel benchmark designed to measure an LLM-based agent's ability to create multi-file website codebases from scratch. It contains diverse instructions for website generation, created through the combined efforts of human annotators and GPT-4o. These instructions span three major categories and thirteen minor categories, encompassing nearly all important types of web applications. To assess the quality of the generated websites, we use GPT-4o to generate test cases targeting each functionality described in the instructions, and then manually filter, adjust, and organize them to ensure accuracy, resulting in 647 test cases. Each test case specifies an operation to be performed on the website and the expected result after the operation. To automate testing and improve reproducibility, we employ a powerful web-navigation agent to execute tests on the generated websites and determine whether the observed responses align with the expected results. We evaluate three high-performance code-agent frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and open-source LLMs as engines. The best-performing combination, Bolt.diy powered by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting the challenging nature of our benchmark. Additionally, we construct WebGen-Instruct, a training set consisting of 6,667 website-generation instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories generated from a subset of this training set achieves an accuracy of 38.2\%, surpassing the performance of the best proprietary model.

WebGen-Bench: Evaluación de LLMs en la Generación de Sitios Web Interactivos y Funcionales desde Cero

WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

Resumen

Support