WebGen-Bench: Het evalueren van LLM's op het genereren van interactieve en functionele websites vanaf nul

Samenvatting

LLM-gebaseerde agents hebben groot potentieel getoond in het genereren en beheren van code binnen complexe codebases. In dit artikel introduceren we WebGen-Bench, een nieuwe benchmark die is ontworpen om het vermogen van een LLM-gebaseerde agent te meten om multi-file website-codebases vanaf nul te creëren. Het bevat diverse instructies voor websitegeneratie, ontwikkeld door de gezamenlijke inspanningen van menselijke annotators en GPT-4o. Deze instructies beslaan drie hoofd- en dertien subcategorieën, die bijna alle belangrijke soorten webapplicaties omvatten. Om de kwaliteit van de gegenereerde websites te beoordelen, gebruiken we GPT-4o om testcases te genereren die gericht zijn op elke functionaliteit die in de instructies wordt beschreven, en filteren, passen we deze handmatig aan en organiseren ze om nauwkeurigheid te waarborgen, wat resulteert in 647 testcases. Elke testcase specificeert een handeling die op de website moet worden uitgevoerd en het verwachte resultaat na de handeling. Om het testen te automatiseren en de reproduceerbaarheid te verbeteren, gebruiken we een krachtige webnavigatie-agent om tests uit te voeren op de gegenereerde websites en te bepalen of de waargenomen reacties overeenkomen met de verwachte resultaten. We evalueren drie hoogwaardige code-agent frameworks, Bolt.diy, OpenHands en Aider, met behulp van meerdere propriëtaire en open-source LLM's als engines. De best presterende combinatie, Bolt.diy aangedreven door DeepSeek-R1, behaalt slechts 27,8% nauwkeurigheid op de testcases, wat de uitdagende aard van onze benchmark benadrukt. Daarnaast construeren we WebGen-Instruct, een trainingsset bestaande uit 6.667 websitegeneratie-instructies. Het trainen van Qwen2.5-Coder-32B-Instruct op Bolt.diy-trajecten gegenereerd uit een subset van deze trainingsset resulteert in een nauwkeurigheid van 38,2%, wat de prestaties van het beste propriëtaire model overtreft.

English

LLM-based agents have demonstrated great potential in generating and managing code within complex codebases. In this paper, we introduce WebGen-Bench, a novel benchmark designed to measure an LLM-based agent's ability to create multi-file website codebases from scratch. It contains diverse instructions for website generation, created through the combined efforts of human annotators and GPT-4o. These instructions span three major categories and thirteen minor categories, encompassing nearly all important types of web applications. To assess the quality of the generated websites, we use GPT-4o to generate test cases targeting each functionality described in the instructions, and then manually filter, adjust, and organize them to ensure accuracy, resulting in 647 test cases. Each test case specifies an operation to be performed on the website and the expected result after the operation. To automate testing and improve reproducibility, we employ a powerful web-navigation agent to execute tests on the generated websites and determine whether the observed responses align with the expected results. We evaluate three high-performance code-agent frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and open-source LLMs as engines. The best-performing combination, Bolt.diy powered by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting the challenging nature of our benchmark. Additionally, we construct WebGen-Instruct, a training set consisting of 6,667 website-generation instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories generated from a subset of this training set achieves an accuracy of 38.2\%, surpassing the performance of the best proprietary model.

WebGen-Bench: Het evalueren van LLM's op het genereren van interactieve en functionele websites vanaf nul

WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

Samenvatting

Summary

Support

Support