MM-WebAgent: Иерархический мультимодальный веб-агент для генерации веб-страниц
MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
April 16, 2026
Авторы: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo
cs.AI
Аннотация
Быстрый прогресс инструментов для генерации контента с помощью искусственного интеллекта (AIGC) позволяет создавать изображения, видео и визуализации по требованию для веб-дизайна, предлагая гибкую и всё более популярную парадигму для современного UI/UX. Однако прямое интегрирование таких инструментов в автоматизированную генерацию веб-страниц часто приводит к стилевой несогласованности и слабой глобальной связности, поскольку элементы создаются изолированно. Мы предлагаем MM-WebAgent — иерархическую агентскую структуру для мультимодальной генерации веб-страниц, которая координирует основанную на AIGC генерацию элементов через иерархическое планирование и итеративную саморефлексию. MM-WebAgent совместно оптимизирует глобальную компоновку, локальное мультимодальное содержимое и их интеграцию, создавая связные и визуально согласованные веб-страницы. Мы также представляем эталонный набор задач для мультимодальной генерации веб-страниц и многоуровневый протокол оценки для систематического тестирования. Эксперименты показывают, что MM-WebAgent превосходит подходы на основе генерации кода и агентских систем, особенно в области генерации и интеграции мультимодальных элементов. Код и данные: https://aka.ms/mm-webagent.
English
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.