ChatPaper.aiChatPaper

WebGen-R1: Het stimuleren van grote taalmodelen om functionele en esthetische websites te genereren met reinforcement learning

WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

April 22, 2026
Auteurs: Juyong Jiang, Chenglin Cai, Chansung Park, Jiasi Shen, Sunghun Kim, Jianguo Li, Yue Wang
cs.AI

Samenvatting

Hoewel Large Language Models (LLM's) uitblinken in het genereren van code op functieniveau, blijven projectniveau-taken zoals het genereren van functionele en visueel aantrekkelijke websites met meerdere pagina's zeer uitdagend. Bestaande werken zijn vaak beperkt tot statische websites met één pagina, terwijl agent-gebaseerde frameworks doorgaans vertrouwen op multi-turn uitvoering met propriëtaire modellen, wat leidt tot aanzienlijke tokenkosten, hoge latentie en broze integratie. Het end-to-end trainen van een kleine LLM met reinforcement learning (RL) is een veelbelovend alternatief, maar wordt geconfronteerd met een kritieke bottleneck bij het ontwerpen van betrouwbare en computationeel haalbare beloningen voor websitegeneratie. In tegenstelling tot coderings-taken met één bestand die kunnen worden geverifieerd met unittests, vereist websitegeneratie de evaluatie van inherent subjectieve esthetiek, interacties tussen pagina's en functionele correctheid. Daartoe stellen wij WebGen-R1 voor, een end-to-end RL-framework toegesneden op websitegeneratie op projectniveau. We introduceren eerst een scaffold-gestuurd, gestructureerd generatieparadigma dat de grote open actieruimte beperkt en de architecturale integriteit bewaart. Vervolgens ontwerpen we een nieuwe gecascadeerde multimodale beloning die structurele garanties naadloos koppelt aan op uitvoering gegronde functionele feedback en visie-gebaseerd esthetisch toezicht. Uitgebreide experimenten tonen aan dat onze WebGen-R1 een 7B-basismodel substantieel transformeert van het genereren van bijna niet-functionele websites naar het produceren van implementeerbare, esthetisch afgestemde websites met meerdere pagina's. Opmerkelijk is dat onze WebGen-R1 niet alleen consistent zwaar geschaalde open-source modellen (tot 72B) overtreft, maar ook de state-of-the-art DeepSeek-R1 (671B) evenaart in functioneel succes, terwijl het deze aanzienlijk overtreft in geldige weergave en esthetische afstemming. Deze resultaten positioneren WebGen-R1 als een levensvatbaar pad voor het schalen van kleine open modellen van codegeneratie op functieniveau naar generatie van webapplicaties op projectniveau.
English
While Large Language Models (LLMs) excel at function-level code generation, project-level tasks such as generating functional and visually aesthetic multi-page websites remain highly challenging. Existing works are often limited to single-page static websites, while agentic frameworks typically rely on multi-turn execution with proprietary models, leading to substantial token costs, high latency, and brittle integration. Training a small LLM end-to-end with reinforcement learning (RL) is a promising alternative, yet it faces a critical bottleneck in designing reliable and computationally feasible rewards for website generation. Unlike single-file coding tasks that can be verified by unit tests, website generation requires evaluating inherently subjective aesthetics, cross-page interactions, and functional correctness. To this end, we propose WebGen-R1, an end-to-end RL framework tailored for project-level website generation. We first introduce a scaffold-driven structured generation paradigm that constrains the large open-ended action space and preserves architectural integrity. We then design a novel cascaded multimodal reward that seamlessly couples structural guarantees with execution-grounded functional feedback and vision-based aesthetic supervision. Extensive experiments demonstrate that our WebGen-R1 substantially transforms a 7B base model from generating nearly nonfunctional websites into producing deployable, aesthetically aligned multi-page websites. Remarkably, our WebGen-R1 not only consistently outperforms heavily scaled open-source models (up to 72B), but also rivals the state-of-the-art DeepSeek-R1 (671B) in functional success, while substantially exceeding it in valid rendering and aesthetic alignment. These results position WebGen-R1 as a viable path for scaling small open models from function-level code generation to project-level web application generation.
PDF31April 25, 2026