MM-WebAgent : Un agent web multimodal hiérarchique pour la génération de pages web
MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
April 16, 2026
Auteurs: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo
cs.AI
Résumé
Les progrès rapides des outils de contenu généré par intelligence artificielle (AIGC) permettent de créer à la demande des images, des vidéos et des visualisations pour la conception de pages web, offrant un paradigme flexible et de plus en plus adopté pour l'interface utilisateur et l'expérience utilisateur modernes. Cependant, l'intégration directe de ces outils dans la génération automatisée de pages web entraîne souvent une incohérence stylistique et une mauvaise cohérence globale, les éléments étant générés de manière isolée. Nous proposons MM-WebAgent, un cadre agentiel hiérarchique pour la génération de pages web multimodales qui coordonne la génération d'éléments basée sur l'AIGC grâce à une planification hiérarchique et une autoréflexion itérative. MM-WebAgent optimise conjointement la mise en page globale, le contenu multimodal local et leur intégration, produisant des pages web cohérentes et visuellement homogènes. Nous introduisons en outre un benchmark pour la génération de pages web multimodales et un protocole d'évaluation multi-niveaux pour une évaluation systématique. Les expériences démontrent que MM-WebAgent surpasse les approches basées sur la génération de code et les systèmes agentiels, particulièrement pour la génération et l'intégration d'éléments multimodaux. Code & Données : https://aka.ms/mm-webagent.
English
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.