WebGen-R1 : Incitation des grands modèles de langage à générer des sites web fonctionnels et esthétiques par apprentissage par renforcement

Résumé

Si les grands modèles de langage (LLM) excellent dans la génération de code au niveau fonctionnel, les tâches au niveau projet telles que la création de sites web multi-pages fonctionnels et esthétiquement plaisants restent très difficiles. Les travaux existants se limitent souvent à des sites web statiques à page unique, tandis que les frameworks agentiels reposent généralement sur une exécution multi-tours avec des modèles propriétaires, entraînant des coûts en tokens substantiels, une latence élevée et une intégration fragile. L'entraînement d'un petit LLM de bout en bout par apprentissage par renforcement (RL) constitue une alternative prometteuse, mais il se heurte à un goulot d'étranglement critique : la conception de récompenses fiables et computationnellement réalisables pour la génération de sites web. Contrairement aux tâches de codage monofichier vérifiables par des tests unitaires, la génération de sites web nécessite d'évaluer des aspects esthétiques intrinsèquement subjectifs, des interactions inter-pages et une exactitude fonctionnelle. Pour cela, nous proposons WebGen-R1, un framework RL de bout en bout conçu pour la génération de sites web au niveau projet. Nous introduisons d'abord un paradigme de génération structurée pilotée par une ébauche, qui contraint le large espace d'actions ouvert et préserve l'intégrité architecturale. Nous concevons ensuite une nouvelle récompense multimodale en cascade qui couple de manière transparente des garanties structurelles avec un retour fonctionnel ancré dans l'exécution et une supervision esthétique basée sur la vision. Des expériences approfondies démontrent que notre WebGen-R1 transforme substantiellement un modèle de base de 7B, passant de la génération de sites web quasi non fonctionnels à la production de sites web multi-pages déployables et esthétiquement cohérents. Fait remarquable, notre WebGen-R1 surpasse non seulement systématiquement les modèles open-source massivement dimensionnés (jusqu'à 72B), mais rivalise également avec le state-of-the-art DeepSeek-R1 (671B) en termes de succès fonctionnel, tout en le dépassant substantiellement en rendu valide et en alignement esthétique. Ces résultats positionnent WebGen-R1 comme une voie viable pour faire évoluer les petits modèles ouverts de la génération de code au niveau fonctionnel vers la génération d'applications web au niveau projet.

English

While Large Language Models (LLMs) excel at function-level code generation, project-level tasks such as generating functional and visually aesthetic multi-page websites remain highly challenging. Existing works are often limited to single-page static websites, while agentic frameworks typically rely on multi-turn execution with proprietary models, leading to substantial token costs, high latency, and brittle integration. Training a small LLM end-to-end with reinforcement learning (RL) is a promising alternative, yet it faces a critical bottleneck in designing reliable and computationally feasible rewards for website generation. Unlike single-file coding tasks that can be verified by unit tests, website generation requires evaluating inherently subjective aesthetics, cross-page interactions, and functional correctness. To this end, we propose WebGen-R1, an end-to-end RL framework tailored for project-level website generation. We first introduce a scaffold-driven structured generation paradigm that constrains the large open-ended action space and preserves architectural integrity. We then design a novel cascaded multimodal reward that seamlessly couples structural guarantees with execution-grounded functional feedback and vision-based aesthetic supervision. Extensive experiments demonstrate that our WebGen-R1 substantially transforms a 7B base model from generating nearly nonfunctional websites into producing deployable, aesthetically aligned multi-page websites. Remarkably, our WebGen-R1 not only consistently outperforms heavily scaled open-source models (up to 72B), but also rivals the state-of-the-art DeepSeek-R1 (671B) in functional success, while substantially exceeding it in valid rendering and aesthetic alignment. These results position WebGen-R1 as a viable path for scaling small open models from function-level code generation to project-level web application generation.

WebGen-R1 : Incitation des grands modèles de langage à générer des sites web fonctionnels et esthétiques par apprentissage par renforcement

WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

Résumé

Support