WebGen-Bench: Avaliando LLMs na Geração de Websites Interativos e Funcionais do Zero

Resumo

Agentes baseados em LLMs têm demonstrado grande potencial na geração e gerenciamento de código em bases de código complexas. Neste artigo, apresentamos o WebGen-Bench, um novo benchmark projetado para medir a capacidade de um agente baseado em LLM de criar bases de código de sites com múltiplos arquivos do zero. Ele contém instruções diversas para a geração de sites, criadas por meio dos esforços combinados de anotadores humanos e do GPT-4o. Essas instruções abrangem três categorias principais e treze subcategorias, englobando quase todos os tipos importantes de aplicações web. Para avaliar a qualidade dos sites gerados, utilizamos o GPT-4o para gerar casos de teste direcionados a cada funcionalidade descrita nas instruções, e então filtramos, ajustamos e organizamos manualmente esses casos para garantir precisão, resultando em 647 casos de teste. Cada caso de teste especifica uma operação a ser realizada no site e o resultado esperado após a operação. Para automatizar os testes e melhorar a reprodutibilidade, empregamos um poderoso agente de navegação web para executar os testes nos sites gerados e determinar se as respostas observadas estão alinhadas com os resultados esperados. Avaliamos três frameworks de agentes de código de alto desempenho, Bolt.diy, OpenHands e Aider, utilizando múltiplos LLMs proprietários e de código aberto como motores. A combinação de melhor desempenho, Bolt.diy alimentado pelo DeepSeek-R1, alcança apenas 27,8% de precisão nos casos de teste, destacando a natureza desafiadora do nosso benchmark. Além disso, construímos o WebGen-Instruct, um conjunto de treinamento composto por 6.667 instruções de geração de sites. O treinamento do Qwen2.5-Coder-32B-Instruct em trajetórias do Bolt.diy geradas a partir de um subconjunto desse conjunto de treinamento alcança uma precisão de 38,2%, superando o desempenho do melhor modelo proprietário.

English

LLM-based agents have demonstrated great potential in generating and managing code within complex codebases. In this paper, we introduce WebGen-Bench, a novel benchmark designed to measure an LLM-based agent's ability to create multi-file website codebases from scratch. It contains diverse instructions for website generation, created through the combined efforts of human annotators and GPT-4o. These instructions span three major categories and thirteen minor categories, encompassing nearly all important types of web applications. To assess the quality of the generated websites, we use GPT-4o to generate test cases targeting each functionality described in the instructions, and then manually filter, adjust, and organize them to ensure accuracy, resulting in 647 test cases. Each test case specifies an operation to be performed on the website and the expected result after the operation. To automate testing and improve reproducibility, we employ a powerful web-navigation agent to execute tests on the generated websites and determine whether the observed responses align with the expected results. We evaluate three high-performance code-agent frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and open-source LLMs as engines. The best-performing combination, Bolt.diy powered by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting the challenging nature of our benchmark. Additionally, we construct WebGen-Instruct, a training set consisting of 6,667 website-generation instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories generated from a subset of this training set achieves an accuracy of 38.2\%, surpassing the performance of the best proprietary model.

WebGen-Bench: Avaliando LLMs na Geração de Websites Interativos e Funcionais do Zero

WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

Resumo

Support