InteractWeb-Bench: Os Agentes Multimodais Podem Escapar da Execução Cega na Geração de Sites Interativos?

Resumo

Com o avanço dos modelos de linguagem grandes multimodais (MLLMs) e dos agentes de codificação, o desenvolvimento de websites evoluiu da programação manual para a síntese de código a nível de projeto baseada em agentes. Os benchmarks existentes baseiam-se em pressupostos idealizados, especialmente no que diz respeito a entradas bem estruturadas e ricas em informação e a ambientes de execução estáticos. Em contraste, o desenvolvimento no mundo real é limitado por um estrangulamento crítico: o desalinhamento semântico entre instruções ambíguas e de baixa qualidade de utilizadores não especializados e a compreensão do modelo, o que resulta num modo de falha que designamos por execução cega. Para colmatar esta lacuna, apresentamos o InteractWeb-Bench, o primeiro benchmark interativo multimodal para geração de websites sob condições de utilizador de baixo código não especializado. O InteractWeb-Bench introduz quatro tipos de agentes de utilizador e perturbações de instrução baseadas em personas para simular sistematicamente diversos comportamentos do utilizador, incluindo ambiguidade, redundância e contradição, com base em taxonomias de defeitos de engenharia de requisitos. Desenvolvemos um ambiente de execução interativo para agentes, apresentando um espaço de ação unificado que compreende Clarificar, Implementar, Verificar e Submeter, permitindo um refinamento iterativo da intenção, síntese de código e validação baseada em feedback visual. Experiências e análises extensivas revelam que os agentes de ponta baseados em MLLMs permanecem presos na execução cega, expondo limitações no reconhecimento de intenções e na interação adaptativa.

English

With the advancement of multimodal large language models (MLLMs) and coding agents, the website development has shifted from manual programming to agent-based project-level code synthesis. Existing benchmarks rely on idealized assumptions, especially for well-structured, information-rich inputs and static execution settings. In contrast, real-world development is constrained by a critical bottleneck: the semantic misalignment between ambiguous, low-quality instructions from non-expert users and model understanding, which results in a failure mode that we term blind execution. To address this gap, we introduce InteractWeb-Bench, the first multimodal interactive benchmark for website generation under non-expert low-code user conditions. InteractWeb-Bench introduces four types of user agents and persona-driven instruction perturbations to systematically simulate diverse user behaviors, including ambiguity, redundancy, and contradiction, grounded in requirement engineering defect taxonomies. We develop an interactive execution environment for agents, featuring a unified action space comprising Clarify, Implement, Verify, and Submit, enabling iterative intent refinement, code synthesis, and visual feedback-based validation. Extensive experiments and analysis reveal that frontier MLLM-based agents remain trapped in blind execution, exposing limitations in intent recognition and adaptive interaction.

InteractWeb-Bench: Os Agentes Multimodais Podem Escapar da Execução Cega na Geração de Sites Interativos?

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Resumo

Support