ChatPaper.aiChatPaper

WebGen-R1: Incentivando Modelos de Linguagem de Grande Porte a Gerar Websites Funcionais e Estéticos com Aprendizado por Reforço

WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

April 22, 2026
Autores: Juyong Jiang, Chenglin Cai, Chansung Park, Jiasi Shen, Sunghun Kim, Jianguo Li, Yue Wang
cs.AI

Resumo

Embora os Modelos de Língua Grande (LLMs) se destaquem na geração de código a nível de função, tarefas a nível de projeto, como a geração de sites multi-página funcionais e visualmente estéticos, permanecem altamente desafiadoras. Os trabalhos existentes frequentemente limitam-se a sites estáticos de página única, enquanto os frameworks agentes normalmente dependem de execução multi-turno com modelos proprietários, resultando em custos substanciais de tokens, alta latência e integração frágil. Treinar um pequeno LLM de ponta a ponta com aprendizado por reforço (RL) é uma alternativa promissora, mas enfrenta um gargalo crítico na criação de recompensas confiáveis e computacionalmente viáveis para a geração de sites. Diferente de tarefas de codificação de arquivo único que podem ser verificadas por testes unitários, a geração de sites requer a avaliação de estética inerentemente subjetiva, interações entre páginas e correção funcional. Para isso, propomos o WebGen-R1, um framework RL de ponta a ponta desenvolvido para geração de sites a nível de projeto. Primeiro, introduzimos um paradigma de geração estruturada orientada por scaffold que restringe o grande espaço de ação aberto e preserva a integridade arquitetônica. Em seguida, projetamos uma nova recompensa multimodal em cascata que acopla perfeitamente garantias estruturais com feedback funcional baseado em execução e supervisão estética baseada em visão. Experimentos extensivos demonstram que nosso WebGen-R1 transforma substancialmente um modelo base de 7B, que gerava sites quase não funcionais, em um produtor de sites multi-página implantáveis e esteticamente alinhados. Notavelmente, nosso WebGen-R1 não apenas supera consistentemente modelos de código aberto altamente escalados (até 72B), mas também rivaliza com o estado da arte DeepSeek-R1 (671B) em sucesso funcional, enquanto o supera substancialmente em renderização válida e alinhamento estético. Esses resultados posicionam o WebGen-R1 como um caminho viável para escalar pequenos modelos abertos da geração de código a nível de função para a geração de aplicações web a nível de projeto.
English
While Large Language Models (LLMs) excel at function-level code generation, project-level tasks such as generating functional and visually aesthetic multi-page websites remain highly challenging. Existing works are often limited to single-page static websites, while agentic frameworks typically rely on multi-turn execution with proprietary models, leading to substantial token costs, high latency, and brittle integration. Training a small LLM end-to-end with reinforcement learning (RL) is a promising alternative, yet it faces a critical bottleneck in designing reliable and computationally feasible rewards for website generation. Unlike single-file coding tasks that can be verified by unit tests, website generation requires evaluating inherently subjective aesthetics, cross-page interactions, and functional correctness. To this end, we propose WebGen-R1, an end-to-end RL framework tailored for project-level website generation. We first introduce a scaffold-driven structured generation paradigm that constrains the large open-ended action space and preserves architectural integrity. We then design a novel cascaded multimodal reward that seamlessly couples structural guarantees with execution-grounded functional feedback and vision-based aesthetic supervision. Extensive experiments demonstrate that our WebGen-R1 substantially transforms a 7B base model from generating nearly nonfunctional websites into producing deployable, aesthetically aligned multi-page websites. Remarkably, our WebGen-R1 not only consistently outperforms heavily scaled open-source models (up to 72B), but also rivals the state-of-the-art DeepSeek-R1 (671B) in functional success, while substantially exceeding it in valid rendering and aesthetic alignment. These results position WebGen-R1 as a viable path for scaling small open models from function-level code generation to project-level web application generation.
PDF31April 25, 2026