WebGen-Bench: Valutazione dei Modelli Linguistici di Grandi Dimensioni nella Generazione di Siti Web Interattivi e Funzionali da Zero
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
May 6, 2025
Autori: Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li
cs.AI
Abstract
Gli agenti basati su LLM hanno dimostrato un grande potenziale nella generazione e gestione di codice all'interno di codebase complessi. In questo articolo, introduciamo WebGen-Bench, un nuovo benchmark progettato per misurare la capacità di un agente basato su LLM di creare codebase di siti web multi-file da zero. Esso contiene istruzioni diversificate per la generazione di siti web, create attraverso lo sforzo combinato di annotatori umani e GPT-4o. Queste istruzioni coprono tre categorie principali e tredici sottocategorie, comprendendo quasi tutti i tipi importanti di applicazioni web. Per valutare la qualità dei siti web generati, utilizziamo GPT-4o per generare casi di test mirati a ciascuna funzionalità descritta nelle istruzioni, e poi li filtriamo, modifichiamo e organizziamo manualmente per garantire l'accuratezza, ottenendo 647 casi di test. Ogni caso di test specifica un'operazione da eseguire sul sito web e il risultato atteso dopo l'operazione. Per automatizzare i test e migliorare la riproducibilità, impieghiamo un potente agente di navigazione web per eseguire i test sui siti web generati e determinare se le risposte osservate corrispondono ai risultati attesi. Valutiamo tre framework di agenti di codice ad alte prestazioni, Bolt.diy, OpenHands e Aider, utilizzando più LLM proprietari e open-source come motori. La combinazione con le migliori prestazioni, Bolt.diy alimentato da DeepSeek-R1, raggiunge solo il 27,8\% di accuratezza sui casi di test, evidenziando la natura impegnativa del nostro benchmark. Inoltre, costruiamo WebGen-Instruct, un set di allenamento composto da 6.667 istruzioni per la generazione di siti web. L'allenamento di Qwen2.5-Coder-32B-Instruct sulle traiettorie di Bolt.diy generate da un sottoinsieme di questo set di allenamento raggiunge un'accuratezza del 38,2\%, superando le prestazioni del miglior modello proprietario.
English
LLM-based agents have demonstrated great potential in generating and managing
code within complex codebases. In this paper, we introduce WebGen-Bench, a
novel benchmark designed to measure an LLM-based agent's ability to create
multi-file website codebases from scratch. It contains diverse instructions for
website generation, created through the combined efforts of human annotators
and GPT-4o. These instructions span three major categories and thirteen minor
categories, encompassing nearly all important types of web applications. To
assess the quality of the generated websites, we use GPT-4o to generate test
cases targeting each functionality described in the instructions, and then
manually filter, adjust, and organize them to ensure accuracy, resulting in 647
test cases. Each test case specifies an operation to be performed on the
website and the expected result after the operation. To automate testing and
improve reproducibility, we employ a powerful web-navigation agent to execute
tests on the generated websites and determine whether the observed responses
align with the expected results. We evaluate three high-performance code-agent
frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and
open-source LLMs as engines. The best-performing combination, Bolt.diy powered
by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting
the challenging nature of our benchmark. Additionally, we construct
WebGen-Instruct, a training set consisting of 6,667 website-generation
instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories
generated from a subset of this training set achieves an accuracy of 38.2\%,
surpassing the performance of the best proprietary model.