WebGen-Bench: Het evalueren van LLM's op het genereren van interactieve en functionele websites vanaf nul
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
May 6, 2025
Auteurs: Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li
cs.AI
Samenvatting
LLM-gebaseerde agents hebben groot potentieel getoond in het genereren en beheren van code binnen complexe codebases. In dit artikel introduceren we WebGen-Bench, een nieuwe benchmark die is ontworpen om het vermogen van een LLM-gebaseerde agent te meten om multi-file website-codebases vanaf nul te creëren. Het bevat diverse instructies voor websitegeneratie, ontwikkeld door de gezamenlijke inspanningen van menselijke annotators en GPT-4o. Deze instructies beslaan drie hoofd- en dertien subcategorieën, die bijna alle belangrijke soorten webapplicaties omvatten. Om de kwaliteit van de gegenereerde websites te beoordelen, gebruiken we GPT-4o om testcases te genereren die gericht zijn op elke functionaliteit die in de instructies wordt beschreven, en filteren, passen we deze handmatig aan en organiseren ze om nauwkeurigheid te waarborgen, wat resulteert in 647 testcases. Elke testcase specificeert een handeling die op de website moet worden uitgevoerd en het verwachte resultaat na de handeling. Om het testen te automatiseren en de reproduceerbaarheid te verbeteren, gebruiken we een krachtige webnavigatie-agent om tests uit te voeren op de gegenereerde websites en te bepalen of de waargenomen reacties overeenkomen met de verwachte resultaten. We evalueren drie hoogwaardige code-agent frameworks, Bolt.diy, OpenHands en Aider, met behulp van meerdere propriëtaire en open-source LLM's als engines. De best presterende combinatie, Bolt.diy aangedreven door DeepSeek-R1, behaalt slechts 27,8% nauwkeurigheid op de testcases, wat de uitdagende aard van onze benchmark benadrukt. Daarnaast construeren we WebGen-Instruct, een trainingsset bestaande uit 6.667 websitegeneratie-instructies. Het trainen van Qwen2.5-Coder-32B-Instruct op Bolt.diy-trajecten gegenereerd uit een subset van deze trainingsset resulteert in een nauwkeurigheid van 38,2%, wat de prestaties van het beste propriëtaire model overtreft.
English
LLM-based agents have demonstrated great potential in generating and managing
code within complex codebases. In this paper, we introduce WebGen-Bench, a
novel benchmark designed to measure an LLM-based agent's ability to create
multi-file website codebases from scratch. It contains diverse instructions for
website generation, created through the combined efforts of human annotators
and GPT-4o. These instructions span three major categories and thirteen minor
categories, encompassing nearly all important types of web applications. To
assess the quality of the generated websites, we use GPT-4o to generate test
cases targeting each functionality described in the instructions, and then
manually filter, adjust, and organize them to ensure accuracy, resulting in 647
test cases. Each test case specifies an operation to be performed on the
website and the expected result after the operation. To automate testing and
improve reproducibility, we employ a powerful web-navigation agent to execute
tests on the generated websites and determine whether the observed responses
align with the expected results. We evaluate three high-performance code-agent
frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and
open-source LLMs as engines. The best-performing combination, Bolt.diy powered
by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting
the challenging nature of our benchmark. Additionally, we construct
WebGen-Instruct, a training set consisting of 6,667 website-generation
instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories
generated from a subset of this training set achieves an accuracy of 38.2\%,
surpassing the performance of the best proprietary model.Summary
AI-Generated Summary