MM-WebAgent: Un Agente Web Multimodale Gerarchico per la Generazione di Pagine Web
MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
April 16, 2026
Autori: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo
cs.AI
Abstract
I rapidi progressi degli strumenti di generazione di contenuti tramite intelligenza artificiale (AIGC) consentono la creazione su richiesta di immagini, video e visualizzazioni per la progettazione di pagine web, offrendo un paradigma flessibile e sempre più adottato per le moderne interfacce ed esperienze utente (UI/UX). Tuttavia, l'integrazione diretta di tali strumenti nella generazione automatizzata di pagine web spesso porta a incoerenza stilistica e scarsa coerenza globale, poiché gli elementi vengono generati in modo isolato. Proponiamo MM-WebAgent, un framework agente gerarchico per la generazione di pagine web multimodali che coordina la generazione di elementi basata su AIGC attraverso una pianificazione gerarchica e un'auto-riflessione iterativa. MM-WebAgent ottimizza congiuntamente il layout globale, i contenuti multimodali locali e la loro integrazione, producendo pagine web coerenti e visivamente consistenti. Introduciamo inoltre un benchmark per la generazione di pagine web multimodali e un protocollo di valutazione multilivello per una valutazione sistematica. Gli esperimenti dimostrano che MM-WebAgent supera i baseline basati sulla generazione di codice e sugli agenti, in particolare sulla generazione e integrazione di elementi multimodali. Codice & Dati: https://aka.ms/mm-webagent.
English
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.