WebGen-R1: Incentivación de Modelos de Lenguaje Grandes para Generar Sitios Web Funcionales y Estéticos con Aprendizaje por Refuerzo

Resumen

Si bien los Modelos de Lenguaje a Gran Escala (LLMs) sobresalen en la generación de código a nivel de función, las tareas a nivel de proyecto, como la generación de sitios web multipágina funcionales y visualmente estéticos, siguen siendo muy desafiantes. Los trabajos existentes a menudo se limitan a sitios web estáticos de una sola página, mientras que los marcos agentes típicamente dependen de una ejecución multi-turno con modelos propietarios, lo que conlleva costos sustanciales de tokens, alta latencia e integración frágil. Entrenar un LLM pequeño de extremo a extremo con aprendizaje por refuerzo (RL) es una alternativa prometedora, pero enfrenta un cuello de botella crítico en el diseño de recompensas confiables y computacionalmente viables para la generación de sitios web. A diferencia de las tareas de codificación de un solo archivo que pueden verificarse con pruebas unitarias, la generación de sitios web requiere evaluar estética inherentemente subjetiva, interacciones entre páginas y corrección funcional. Para ello, proponemos WebGen-R1, un marco de RL de extremo a extremo diseñado para la generación de sitios web a nivel de proyecto. Primero introducimos un paradigma de generación estructurada basado en andamiajes que restringe el amplio espacio de acciones abierto y preserva la integridad arquitectónica. Luego diseñamos una novedosa recompensa multimodal en cascada que acopla de forma fluida las garantías estructurales con retroalimentación funcional basada en ejecución y supervisión estética basada en visión. Experimentos exhaustivos demuestran que nuestro WebGen-R1 transforma sustancialmente un modelo base de 7B, pasando de generar sitios web casi no funcionales a producir sitios web multipágina desplegables y estéticamente alineados. Notablemente, nuestro WebGen-R1 no solo supera consistentemente a modelos de código abierto altamente escalados (hasta 72B), sino que también rivaliza con el estado del arte DeepSeek-R1 (671B) en éxito funcional, mientras lo supera sustancialmente en renderizado válido y alineación estética. Estos resultados posicionan a WebGen-R1 como una vía viable para escalar modelos abiertos pequeños desde la generación de código a nivel de función hasta la generación de aplicaciones web a nivel de proyecto.

English

While Large Language Models (LLMs) excel at function-level code generation, project-level tasks such as generating functional and visually aesthetic multi-page websites remain highly challenging. Existing works are often limited to single-page static websites, while agentic frameworks typically rely on multi-turn execution with proprietary models, leading to substantial token costs, high latency, and brittle integration. Training a small LLM end-to-end with reinforcement learning (RL) is a promising alternative, yet it faces a critical bottleneck in designing reliable and computationally feasible rewards for website generation. Unlike single-file coding tasks that can be verified by unit tests, website generation requires evaluating inherently subjective aesthetics, cross-page interactions, and functional correctness. To this end, we propose WebGen-R1, an end-to-end RL framework tailored for project-level website generation. We first introduce a scaffold-driven structured generation paradigm that constrains the large open-ended action space and preserves architectural integrity. We then design a novel cascaded multimodal reward that seamlessly couples structural guarantees with execution-grounded functional feedback and vision-based aesthetic supervision. Extensive experiments demonstrate that our WebGen-R1 substantially transforms a 7B base model from generating nearly nonfunctional websites into producing deployable, aesthetically aligned multi-page websites. Remarkably, our WebGen-R1 not only consistently outperforms heavily scaled open-source models (up to 72B), but also rivals the state-of-the-art DeepSeek-R1 (671B) in functional success, while substantially exceeding it in valid rendering and aesthetic alignment. These results position WebGen-R1 as a viable path for scaling small open models from function-level code generation to project-level web application generation.

WebGen-R1: Incentivación de Modelos de Lenguaje Grandes para Generar Sitios Web Funcionales y Estéticos con Aprendizaje por Refuerzo

WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

Resumen

Support