MM-WebAgent: Ein hierarchischer multimodaler Web-Agent zur Erstellung von Webseiten
MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
April 16, 2026
Autoren: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo
cs.AI
Zusammenfassung
Der rasche Fortschritt von Werkzeugen für künstlich generierte Inhalte (AIGC) ermöglicht die bedarfsgerechte Erstellung von Bildern, Videos und Visualisierungen für das Webseitendesign und bietet ein flexibles und zunehmend verbreitetes Paradigma für moderne UI/UX. Die direkte Integration solcher Werkzeuge in die automatische Webseitengenerierung führt jedoch oft zu stilistischen Inkonsistenzen und mangelnder globaler Kohärenz, da Elemente isoliert erzeugt werden. Wir schlagen MM-WebAgent vor, ein hierarchisches agentenbasiertes Framework für multimodale Webseitengenerierung, das AIGC-basierte Elementerstellung durch hierarchische Planung und iterative Selbstreflexion koordiniert. MM-WebAgent optimiert gemeinsam das globale Layout, lokale multimodale Inhalte und deren Integration, um kohärente und visuell konsistente Webseiten zu erzeugen. Wir führen außerdem einen Benchmark für multimodale Webseitengenerierung sowie ein mehrstufiges Evaluierungsprotokoll für systematische Bewertung ein. Experimente zeigen, dass MM-WebAgent codegenerierende und agentenbasierte Baseline-Methoden übertrifft, insbesondere bei der Generierung und Integration multimodaler Elemente. Code & Daten: https://aka.ms/mm-webagent.
English
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.