ChatPaper.aiChatPaper

MM-WebAgent: 웹페이지 생성을 위한 계층적 멀티모달 웹 에이전트

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

April 16, 2026
저자: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo
cs.AI

초록

인공지능 생성 콘텐츠(AIGC) 도구의 빠른 발전으로 웹페이지 디자인을 위해 이미지, 동영상, 시각화 자료 등을 주문형으로 생성할 수 있게 되어 현대 UI/UX에 유연하고 점차 채택되는 패러다임을 제공하고 있습니다. 그러나 이러한 도구를 자동화된 웹페이지 생성에 직접 통합할 경우 요소들이 개별적으로 생성되기 때문에 스타일 불일치와 전역적 일관성 저하가 자주 발생합니다. 우리는 계층적 계획과 반복적 자기 성찰을 통해 AIGC 기반 요소 생성을 조율하는 다중모달 웹페이지 생성을 위한 계층적 에이전트 프레임워크인 MM-WebAgent를 제안합니다. MM-WebAgent는 전역 레이아웃, 지역적 다중모달 콘텐츠 및 이들의 통합을 공동으로 최적화하여 일관성 있고 시각적으로 통일된 웹페이지를 생성합니다. 또한 다중모달 웹페이지 생성을 위한 벤치마크와 체계적 평가를 위한 다단계 평가 프로토콜을 도입합니다. 실험 결과 MM-WebAgent는 코드 생성 및 에이전트 기반 기준선보다 성능이 우수하며, 특히 다중모달 요소 생성 및 통합 분야에서 두각을 나타냅니다. 코드 및 데이터: https://aka.ms/mm-webagent.
English
The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.
PDF20April 18, 2026