WebGen-R1: Incentivare i Modelli Linguistici di Grande Dimensione a Generare Siti Web Funzionali ed Estetici con l'Apprendimento per Rinforzo
WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning
April 22, 2026
Autori: Juyong Jiang, Chenglin Cai, Chansung Park, Jiasi Shen, Sunghun Kim, Jianguo Li, Yue Wang
cs.AI
Abstract
Mentre i Large Language Model (LLM) eccellono nella generazione di codice a livello di funzione, compiti a livello di progetto come la generazione di siti web multipagina funzionali e esteticamente gradevoli rimangono estremamente impegnativi. I lavori esistenti sono spesso limitati a siti web statici a pagina singola, mentre i framework agentici tipicamente si basano su esecuzioni multi-turn con modelli proprietari, portando a costi sostanziali in token, alta latenza e integrazioni fragili. Addestrare un piccolo LLM end-to-end con reinforcement learning (RL) è un'alternativa promettente, ma affronta un collo di bottiglia critico nella progettazione di ricompense affidabili e computazionalmente fattibili per la generazione di siti web. A differenza dei compiti di codifica a file singolo che possono essere verificati con test unitari, la generazione di siti web richiede la valutazione di aspetti estetici intrinsecamente soggettivi, interazioni tra pagine e correttezza funzionale. A tal fine, proponiamo WebGen-R1, un framework RL end-to-end specificamente progettato per la generazione di siti web a livello di progetto. Introduciamo prima un paradigma di generazione strutturata guidato da scaffold che vincola il vasto spazio d'azione aperto e preserva l'integrità architetturale. Successivamente, progettiamo una nuova ricompensa multimodale a cascata che combina in modo fluido garanzie strutturali con feedback funzionale basato sull'esecuzione e supervisione estetica basata sulla visione. Esperimenti estensivi dimostrano che il nostro WebGen-R1 trasforma sostanzialmente un modello base da 7B, che generava siti web quasi non funzionanti, in uno in grado di produrre siti web multipagina distribuibili e allineati esteticamente. Notevolmente, il nostro WebGen-R1 non solo supera costantemente modelli open-source pesantemente scalati (fino a 72B), ma rivaleggia anche con lo state-of-the-art DeepSeek-R1 (671B) nel successo funzionale, superandolo sostanzialmente nel rendering valido e nell'allineamento estetico. Questi risultati posizionano WebGen-R1 come un percorso percorribile per scalare piccoli modelli open dalla generazione di codice a livello di funzione alla generazione di applicazioni web a livello di progetto.
English
While Large Language Models (LLMs) excel at function-level code generation, project-level tasks such as generating functional and visually aesthetic multi-page websites remain highly challenging. Existing works are often limited to single-page static websites, while agentic frameworks typically rely on multi-turn execution with proprietary models, leading to substantial token costs, high latency, and brittle integration. Training a small LLM end-to-end with reinforcement learning (RL) is a promising alternative, yet it faces a critical bottleneck in designing reliable and computationally feasible rewards for website generation. Unlike single-file coding tasks that can be verified by unit tests, website generation requires evaluating inherently subjective aesthetics, cross-page interactions, and functional correctness. To this end, we propose WebGen-R1, an end-to-end RL framework tailored for project-level website generation. We first introduce a scaffold-driven structured generation paradigm that constrains the large open-ended action space and preserves architectural integrity. We then design a novel cascaded multimodal reward that seamlessly couples structural guarantees with execution-grounded functional feedback and vision-based aesthetic supervision. Extensive experiments demonstrate that our WebGen-R1 substantially transforms a 7B base model from generating nearly nonfunctional websites into producing deployable, aesthetically aligned multi-page websites. Remarkably, our WebGen-R1 not only consistently outperforms heavily scaled open-source models (up to 72B), but also rivals the state-of-the-art DeepSeek-R1 (671B) in functional success, while substantially exceeding it in valid rendering and aesthetic alignment. These results position WebGen-R1 as a viable path for scaling small open models from function-level code generation to project-level web application generation.