ChatPaper.aiChatPaper

MM-WebAgent: Un Agente Web Multimodal Jerárquico para la Generación de Páginas Web

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

April 16, 2026
Autores: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo
cs.AI

Resumen

El rápido progreso de las herramientas de Contenido Generado por Inteligencia Artificial (AIGC) permite crear imágenes, vídeos y visualizaciones bajo demanda para el diseño de páginas web, ofreciendo un paradigma flexible y cada vez más adoptado para la UI/UX moderna. Sin embargo, la integración directa de dichas herramientas en la generación automatizada de páginas web a menudo conduce a inconsistencias de estilo y una pobre coherencia global, ya que los elementos se generan de forma aislada. Proponemos MM-WebAgent, un marco de agencia jerárquico para la generación multimodal de páginas web que coordina la generación de elementos basada en AIGC mediante planificación jerárquica y autorreflexión iterativa. MM-WebAgent optimiza conjuntamente el diseño global, el contenido multimodal local y su integración, produciendo páginas web coherentes y visualmente consistentes. Además, presentamos un benchmark para la generación multimodal de páginas web y un protocolo de evaluación multinivel para una valoración sistemática. Los experimentos demuestran que MM-WebAgent supera a los baselines basados en generación de código y agentes, especialmente en la generación e integración de elementos multimodales. Código & Datos: https://aka.ms/mm-webagent.
English
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.
PDF20April 18, 2026