ChatPaper.aiChatPaper

MM-WebAgent: Een hiërarchische multimodale webagent voor webpaginageneratie

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

April 16, 2026
Auteurs: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo
cs.AI

Samenvatting

De snelle vooruitgang van Artificial Intelligence Generated Content (AIGC)-tools maakt het mogelijk om op aanvraag afbeeldingen, video's en visualisaties te creëren voor webpaginadesign, wat een flexibel en in toenemende mate geadopteerd paradigma biedt voor moderne UI/UX. Het direct integreren van dergelijke tools in geautomatiseerde webpagina-generatie leidt echter vaak tot stijlinconsistentie en slechte globale coherentie, omdat elementen geïsoleerd worden gegenereerd. Wij stellen MM-WebAgent voor, een hiërarchisch agent-gebaseerd raamwerk voor multimodale webpagina-generatie dat AIGC-gebaseerde elementgeneratie coördineert door middel van hiërarchische planning en iteratieve zelfreflectie. MM-WebAgent optimaliseert gezamenlijk de globale lay-out, lokale multimodale content en hun integratie, waardoor samenhangende en visueel consistente webpagina's worden geproduceerd. We introduceren verder een benchmark voor multimodale webpagina-generatie en een meerniveau-evaluatieprotocol voor systematische beoordeling. Experimenten tonen aan dat MM-WebAgent beter presteert dan code-generatie- en agent-gebaseerde baseline-methoden, met name op het gebied van multimodale elementgeneratie en -integratie. Code & Data: https://aka.ms/mm-webagent.
English
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.
PDF51April 18, 2026