ChatPaper.aiChatPaper

MM-WebAgent: ウェブページ生成のための階層型マルチモーダルWebエージェント

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

April 16, 2026
著者: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo
cs.AI

要旨

人工知能生成コンテンツ(AIGC)ツールの急速な進歩により、ウェブページデザインにおいて画像や動画、ビジュアライゼーションをオンデマンドで作成できるようになり、現代のUI/UXにおける柔軟で採用の広がるパラダイムを提供している。しかし、このようなツールを自動ウェブページ生成に直接統合すると、要素が個別に生成されるため、スタイルの不一致や全体的な一貫性の欠如が生じることが多い。本研究では、階層的計画と反復的自己反省を通じてAIGCベースの要素生成を調整する、マルチモーダルなウェブページ生成のための階層的エージェントフレームワーク「MM-WebAgent」を提案する。MM-WebAgentは、グローバルなレイアウト、ローカルなマルチモーダルコンテンツ、およびそれらの統合を共同で最適化し、一貫性があり視覚的に統一されたウェブページを生成する。さらに、マルチモーダルウェブページ生成のためのベンチマークと、体系的な評価のための多段階評価プロトコルを導入する。実験により、MM-WebAgentはコード生成ベースやエージェントベースのベースライン手法を凌駕し、特にマルチモーダル要素の生成と統合において優れた性能を示すことを実証する。コードとデータは https://aka.ms/mm-webagent で公開されている。
English
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.
PDF20April 18, 2026