InteractWeb-Bench: ¿Puede el Agente Multimodal Escapar de la Ejecución a Ciegas en la Generación Interactiva de Sitios Web?

Resumen

Con el avance de los modelos de lenguaje multimodal (MLLM) y los agentes de programación, el desarrollo web ha evolucionado desde la programación manual hacia la síntesis de código a nivel de proyecto basada en agentes. Los puntos de referencia existentes se basan en supuestos idealizados, especialmente para entradas bien estructuradas, ricas en información y entornos de ejecución estáticos. Por el contrario, el desarrollo en el mundo real se ve limitado por un cuello de botella crítico: el desalineamiento semántico entre las instrucciones ambiguas y de baja calidad de usuarios no expertos y la comprensión del modelo, lo que resulta en un modo de fallo que denominamos *ejecución ciega*. Para abordar esta brecha, presentamos InteractWeb-Bench, el primer punto de referencia interactivo multimodal para la generación de sitios web bajo condiciones de usuarios no expertos en entornos de *low-code*. InteractWeb-Bench introduce cuatro tipos de agentes de usuario y perturbaciones de instrucción basadas en personajes para simular sistemáticamente diversos comportamientos de usuario, incluyendo ambigüedad, redundancia y contradicción, fundamentados en taxonomías de defectos de la ingeniería de requisitos. Desarrollamos un entorno de ejecución interactivo para agentes, que presenta un espacio de acción unificado que comprende Aclarar, Implementar, Verificar y Enviar, permitiendo un refinamiento iterativo de la intención, síntesis de código y validación basada en retroalimentación visual. Experimentos y análisis exhaustivos revelan que los agentes basados en MLLM de vanguardia siguen atrapados en la ejecución ciega, exponiendo limitaciones en el reconocimiento de intenciones y la interacción adaptativa.

English

With the advancement of multimodal large language models (MLLMs) and coding agents, the website development has shifted from manual programming to agent-based project-level code synthesis. Existing benchmarks rely on idealized assumptions, especially for well-structured, information-rich inputs and static execution settings. In contrast, real-world development is constrained by a critical bottleneck: the semantic misalignment between ambiguous, low-quality instructions from non-expert users and model understanding, which results in a failure mode that we term blind execution. To address this gap, we introduce InteractWeb-Bench, the first multimodal interactive benchmark for website generation under non-expert low-code user conditions. InteractWeb-Bench introduces four types of user agents and persona-driven instruction perturbations to systematically simulate diverse user behaviors, including ambiguity, redundancy, and contradiction, grounded in requirement engineering defect taxonomies. We develop an interactive execution environment for agents, featuring a unified action space comprising Clarify, Implement, Verify, and Submit, enabling iterative intent refinement, code synthesis, and visual feedback-based validation. Extensive experiments and analysis reveal that frontier MLLM-based agents remain trapped in blind execution, exposing limitations in intent recognition and adaptive interaction.

InteractWeb-Bench: ¿Puede el Agente Multimodal Escapar de la Ejecución a Ciegas en la Generación Interactiva de Sitios Web?

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Resumen

Support