WebGen-Bench : Évaluation des LLM pour la génération de sites web interactifs et fonctionnels à partir de zéro
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
May 6, 2025
Auteurs: Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li
cs.AI
Résumé
Les agents basés sur LLM ont démontré un grand potentiel dans la génération et la gestion de code au sein de bases de code complexes. Dans cet article, nous présentons WebGen-Bench, un nouveau benchmark conçu pour mesurer la capacité d'un agent basé sur LLM à créer des bases de code de sites web multi-fichiers à partir de zéro. Il contient des instructions variées pour la génération de sites web, créées grâce à l'effort combiné d'annotateurs humains et de GPT-4o. Ces instructions couvrent trois catégories principales et treize sous-catégories, englobant presque tous les types importants d'applications web. Pour évaluer la qualité des sites web générés, nous utilisons GPT-4o pour générer des cas de test ciblant chaque fonctionnalité décrite dans les instructions, puis nous les filtrons, ajustons et organisons manuellement pour garantir leur précision, ce qui donne 647 cas de test. Chaque cas de test spécifie une opération à effectuer sur le site web et le résultat attendu après cette opération. Pour automatiser les tests et améliorer la reproductibilité, nous employons un puissant agent de navigation web pour exécuter les tests sur les sites web générés et déterminer si les réponses observées correspondent aux résultats attendus. Nous évaluons trois frameworks d'agents de code hautes performances, Bolt.diy, OpenHands et Aider, en utilisant plusieurs LLM propriétaires et open-source comme moteurs. La combinaison la plus performante, Bolt.diy alimenté par DeepSeek-R1, n'atteint que 27,8 % de précision sur les cas de test, soulignant la nature exigeante de notre benchmark. De plus, nous construisons WebGen-Instruct, un ensemble d'entraînement composé de 6 667 instructions de génération de sites web. L'entraînement de Qwen2.5-Coder-32B-Instruct sur les trajectoires de Bolt.diy générées à partir d'un sous-ensemble de cet ensemble d'entraînement atteint une précision de 38,2 %, surpassant la performance du meilleur modèle propriétaire.
English
LLM-based agents have demonstrated great potential in generating and managing
code within complex codebases. In this paper, we introduce WebGen-Bench, a
novel benchmark designed to measure an LLM-based agent's ability to create
multi-file website codebases from scratch. It contains diverse instructions for
website generation, created through the combined efforts of human annotators
and GPT-4o. These instructions span three major categories and thirteen minor
categories, encompassing nearly all important types of web applications. To
assess the quality of the generated websites, we use GPT-4o to generate test
cases targeting each functionality described in the instructions, and then
manually filter, adjust, and organize them to ensure accuracy, resulting in 647
test cases. Each test case specifies an operation to be performed on the
website and the expected result after the operation. To automate testing and
improve reproducibility, we employ a powerful web-navigation agent to execute
tests on the generated websites and determine whether the observed responses
align with the expected results. We evaluate three high-performance code-agent
frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and
open-source LLMs as engines. The best-performing combination, Bolt.diy powered
by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting
the challenging nature of our benchmark. Additionally, we construct
WebGen-Instruct, a training set consisting of 6,667 website-generation
instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories
generated from a subset of this training set achieves an accuracy of 38.2\%,
surpassing the performance of the best proprietary model.Summary
AI-Generated Summary