WebGen-Bench: Bewertung von LLMs bei der Generierung interaktiver und funktionaler Websites von Grund auf
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
May 6, 2025
Autoren: Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li
cs.AI
Zusammenfassung
LLM-basierte Agenten haben großes Potenzial bei der Generierung und Verwaltung von Code in komplexen Codebasen gezeigt. In diesem Artikel stellen wir WebGen-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Fähigkeit eines LLM-basierten Agenten zu messen, mehrdateige Website-Codebasen von Grund auf zu erstellen. Er enthält diverse Anweisungen zur Website-Generierung, die durch die gemeinsamen Bemühungen von menschlichen Annotatoren und GPT-4o erstellt wurden. Diese Anweisungen umfassen drei Hauptkategorien und dreizehn Unterkategorien, die nahezu alle wichtigen Arten von Webanwendungen abdecken. Um die Qualität der generierten Websites zu bewerten, verwenden wir GPT-4o, um Testfälle zu generieren, die jede in den Anweisungen beschriebene Funktionalität abdecken, und filtern, passen und organisieren diese manuell, um Genauigkeit zu gewährleisten, was zu 647 Testfällen führt. Jeder Testfall spezifiziert eine Operation, die auf der Website durchgeführt werden soll, und das erwartete Ergebnis nach der Operation. Um das Testen zu automatisieren und die Reproduzierbarkeit zu verbessern, setzen wir einen leistungsstarken Web-Navigations-Agenten ein, um Tests auf den generierten Websites durchzuführen und festzustellen, ob die beobachteten Antworten mit den erwarteten Ergebnissen übereinstimmen. Wir evaluieren drei hochleistungsfähige Code-Agenten-Frameworks, Bolt.diy, OpenHands und Aider, unter Verwendung mehrerer proprietärer und Open-Source-LLMs als Engines. Die beste Kombination, Bolt.diy angetrieben von DeepSeek-R1, erreicht nur 27,8 % Genauigkeit bei den Testfällen, was die anspruchsvolle Natur unseres Benchmarks unterstreicht. Zusätzlich erstellen wir WebGen-Instruct, einen Trainingsdatensatz, der aus 6.667 Website-Generierungsanweisungen besteht. Das Training von Qwen2.5-Coder-32B-Instruct auf Bolt.diy-Trajektorien, die aus einer Teilmenge dieses Trainingsdatensatzes generiert wurden, erreicht eine Genauigkeit von 38,2 % und übertrifft damit die Leistung des besten proprietären Modells.
English
LLM-based agents have demonstrated great potential in generating and managing
code within complex codebases. In this paper, we introduce WebGen-Bench, a
novel benchmark designed to measure an LLM-based agent's ability to create
multi-file website codebases from scratch. It contains diverse instructions for
website generation, created through the combined efforts of human annotators
and GPT-4o. These instructions span three major categories and thirteen minor
categories, encompassing nearly all important types of web applications. To
assess the quality of the generated websites, we use GPT-4o to generate test
cases targeting each functionality described in the instructions, and then
manually filter, adjust, and organize them to ensure accuracy, resulting in 647
test cases. Each test case specifies an operation to be performed on the
website and the expected result after the operation. To automate testing and
improve reproducibility, we employ a powerful web-navigation agent to execute
tests on the generated websites and determine whether the observed responses
align with the expected results. We evaluate three high-performance code-agent
frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and
open-source LLMs as engines. The best-performing combination, Bolt.diy powered
by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting
the challenging nature of our benchmark. Additionally, we construct
WebGen-Instruct, a training set consisting of 6,667 website-generation
instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories
generated from a subset of this training set achieves an accuracy of 38.2\%,
surpassing the performance of the best proprietary model.Summary
AI-Generated Summary