InteractWeb-Bench: マルチモーダルエージェントは対話型ウェブサイト生成におけるブラインド実行から脱却できるか?
InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?
April 30, 2026
著者: Qiyao Wang, Haoran Hu, Longze Chen, Hongbo Wang, Hamid Alinejad-Rokny, Yuan Lin, Min Yang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)とコーディングエージェントの発展に伴い、ウェブサイト開発は手動プログラミングからエージェントベースのプロジェクトレベルコード合成へと移行しつつある。既存のベンチマークは理想化された前提、特に構造化された情報豊富な入力と静的な実行環境に依存している。一方、実世界の開発は重大なボトルネック、すなわち非専門家ユーザーからの曖昧で低品質な指示とモデルの理解との間の意味的齟齬に制約されており、これが「盲目的実行」と呼ぶ失敗モードを引き起こす。この課題に対処するため、我々は非専門家のローコードユーザー環境下におけるウェブサイト生成のための初のマルチモーダル対話型ベンチマーク「InteractWeb-Bench」を提案する。InteractWeb-Benchは、要求工学の欠陥分類体系に基づき、曖昧性・冗長性・矛盾を含む多様なユーザー行動を体系的に模擬するため、4種類のユーザーエージェントと人物像駆動の指示摂動を導入する。さらに、明確化・実装・検証・提出からなる統一アクション空間を備えた対話型実行環境を開発し、反復的な意図解釈の精緻化、コード合成、視覚的フィードバックに基づく検証を可能とする。大規模な実験と分析により、最先端のMLLMベースのエージェントが依然として盲目的実行に陥り、意図認識と適応的対話における限界が明らかとなった。
English
With the advancement of multimodal large language models (MLLMs) and coding agents, the website development has shifted from manual programming to agent-based project-level code synthesis. Existing benchmarks rely on idealized assumptions, especially for well-structured, information-rich inputs and static execution settings. In contrast, real-world development is constrained by a critical bottleneck: the semantic misalignment between ambiguous, low-quality instructions from non-expert users and model understanding, which results in a failure mode that we term blind execution. To address this gap, we introduce InteractWeb-Bench, the first multimodal interactive benchmark for website generation under non-expert low-code user conditions. InteractWeb-Bench introduces four types of user agents and persona-driven instruction perturbations to systematically simulate diverse user behaviors, including ambiguity, redundancy, and contradiction, grounded in requirement engineering defect taxonomies. We develop an interactive execution environment for agents, featuring a unified action space comprising Clarify, Implement, Verify, and Submit, enabling iterative intent refinement, code synthesis, and visual feedback-based validation. Extensive experiments and analysis reveal that frontier MLLM-based agents remain trapped in blind execution, exposing limitations in intent recognition and adaptive interaction.