MM-WebAgent: Um Agente Web Multimodal Hierárquico para Geração de Páginas Web
MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
April 16, 2026
Autores: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo
cs.AI
Resumo
O rápido progresso das ferramentas de Conteúdo Gerado por Inteligência Artificial (AIGC) permite que imagens, vídeos e visualizações sejam criados sob demanda para o design de páginas web, oferecendo um paradigma flexível e cada vez mais adotado para a UI/UX moderna. No entanto, a integração direta de tais ferramentas na geração automatizada de páginas web frequentemente resulta em inconsistência de estilo e baixa coerência global, uma vez que os elementos são gerados de forma isolada. Propomos o MM-WebAgent, uma estrutura agentiva hierárquica para geração multimodal de páginas web que coordena a geração de elementos baseada em AIGC por meio de planejamento hierárquico e autorreflexão iterativa. O MM-WebAgent otimiza conjuntamente o layout global, o conteúdo multimodal local e a sua integração, produzindo páginas web coerentes e visualmente consistentes. Introduzimos ainda um benchmark para geração multimodal de páginas web e um protocolo de avaliação multinível para uma avaliação sistemática. Os experimentos demonstram que o MM-WebAgent supera as linhas de base baseadas em geração de código e em agentes, especialmente na geração e integração de elementos multimodais. Código & Dados: https://aka.ms/mm-webagent.
English
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.