WebGen-R1: Стимулирование больших языковых моделей к генерации функциональных и эстетичных веб-сайтов с помощью обучения с подкреплением
WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning
April 22, 2026
Авторы: Juyong Jiang, Chenglin Cai, Chansung Park, Jiasi Shen, Sunghun Kim, Jianguo Li, Yue Wang
cs.AI
Аннотация
Хотя большие языковые модели (LLM) преуспевают в генерации кода на уровне функций, задачи уровня проекта, такие как создание функциональных и визуально эстетичных многостраничных веб-сайтов, остаются крайне сложными. Существующие разработки часто ограничиваются статическими одностраничными сайтами, в то время как агентские фреймворки обычно полагаются на многошаговое выполнение с использованием проприетарных моделей, что приводит к значительным затратам на токены, высокой задержке и хрупкой интеграции. Сквозное обучение небольшой LLM с подкреплением (RL) является перспективной альтернативой, однако оно сталкивается с ключевым ограничением — проектированием надежных и вычислительно осуществимых вознаграждений для генерации веб-сайтов. В отличие от задач кодирования одного файла, которые можно проверить модульными тестами, генерация веб-сайтов требует оценки inherently субъективной эстетики, межстраничных взаимодействий и функциональной корректности. Для решения этой проблемы мы предлагаем WebGen-R1 — сквозной RL-фреймворк, ориентированный на генерацию веб-сайтов уровня проекта. Сначала мы вводим парадигму структурированной генерации на основе каркасов, которая ограничивает обширное неограниченное пространство действий и сохраняет целостность архитектуры. Затем мы разрабатываем новое каскадное мультимодальное вознаграждение, которое органично сочетает структурные гарантии с функциональной обратной связью, основанной на выполнении, и визуальным контролем эстетики. Многочисленные эксперименты демонстрируют, что наш WebGen-R1 существенно преобразует базовую модель объемом 7B, которая генерировала почти нефункциональные веб-сайты, в модель, способную создавать развертываемые, эстетически выверенные многостраничные веб-сайты. Примечательно, что наш WebGen-R1 не только стабильно превосходит сильно масштабированные открытые модели (до 72B), но и конкурирует с передовой моделью DeepSeek-R1 (671B) по функциональной успешности, существенно превосходя ее по корректности рендеринга и эстетическому соответствию. Эти результаты позиционируют WebGen-R1 как жизнеспособный путь для масштабирования небольших открытых моделей от генерации кода на уровне функций до генерации веб-приложений уровня проекта.
English
While Large Language Models (LLMs) excel at function-level code generation, project-level tasks such as generating functional and visually aesthetic multi-page websites remain highly challenging. Existing works are often limited to single-page static websites, while agentic frameworks typically rely on multi-turn execution with proprietary models, leading to substantial token costs, high latency, and brittle integration. Training a small LLM end-to-end with reinforcement learning (RL) is a promising alternative, yet it faces a critical bottleneck in designing reliable and computationally feasible rewards for website generation. Unlike single-file coding tasks that can be verified by unit tests, website generation requires evaluating inherently subjective aesthetics, cross-page interactions, and functional correctness. To this end, we propose WebGen-R1, an end-to-end RL framework tailored for project-level website generation. We first introduce a scaffold-driven structured generation paradigm that constrains the large open-ended action space and preserves architectural integrity. We then design a novel cascaded multimodal reward that seamlessly couples structural guarantees with execution-grounded functional feedback and vision-based aesthetic supervision. Extensive experiments demonstrate that our WebGen-R1 substantially transforms a 7B base model from generating nearly nonfunctional websites into producing deployable, aesthetically aligned multi-page websites. Remarkably, our WebGen-R1 not only consistently outperforms heavily scaled open-source models (up to 72B), but also rivals the state-of-the-art DeepSeek-R1 (671B) in functional success, while substantially exceeding it in valid rendering and aesthetic alignment. These results position WebGen-R1 as a viable path for scaling small open models from function-level code generation to project-level web application generation.