InteractWeb-Bench : Les agents multimodaux peuvent-ils échapper à l'exécution aveugle dans la génération de sites web interactifs ?

Résumé

Avec l'avancement des modèles de langage multimodaux (MLLM) et des agents de programmation, le développement de sites web est passé d'une programmation manuelle à une synthèse de code au niveau projet, pilotée par des agents. Les benchmarks existants reposent sur des hypothèses idéalisées, notamment concernant des entrées bien structurées, riches en informations, et des environnements d'exécution statiques. En revanche, le développement réel est limité par un goulot d'étranglement critique : le décalage sémantique entre des instructions ambiguës et de faible qualité émanant d'utilisateurs non experts et la compréhension du modèle, ce qui génère un mode d'échec que nous nommons l'exécution aveugle. Pour combler cette lacune, nous présentons InteractWeb-Bench, le premier benchmark interactif multimodal pour la génération de sites web dans des conditions d'utilisateurs non experts en low-code. InteractWeb-Bench introduit quatre types d'agents utilisateurs et des perturbations d'instructions basées sur des personas pour simuler systématiquement divers comportements utilisateurs, incluant l'ambiguïté, la redondance et la contradiction, en s'appuyant sur les taxonomies des défauts en ingénierie des exigences. Nous développons un environnement d'exécution interactif pour les agents, doté d'un espace d'action unifié comprenant les actions Clarifier, Implémenter, Vérifier et Soumettre, permettant un raffinement itératif des intentions, une synthèse de code et une validation basée sur un retour visuel. Des expériences et analyses approfondies révèlent que les agents MLLM les plus avancés restent piégés dans l'exécution aveugle, exposant des limitations dans la reconnaissance des intentions et l'interaction adaptative.

English

With the advancement of multimodal large language models (MLLMs) and coding agents, the website development has shifted from manual programming to agent-based project-level code synthesis. Existing benchmarks rely on idealized assumptions, especially for well-structured, information-rich inputs and static execution settings. In contrast, real-world development is constrained by a critical bottleneck: the semantic misalignment between ambiguous, low-quality instructions from non-expert users and model understanding, which results in a failure mode that we term blind execution. To address this gap, we introduce InteractWeb-Bench, the first multimodal interactive benchmark for website generation under non-expert low-code user conditions. InteractWeb-Bench introduces four types of user agents and persona-driven instruction perturbations to systematically simulate diverse user behaviors, including ambiguity, redundancy, and contradiction, grounded in requirement engineering defect taxonomies. We develop an interactive execution environment for agents, featuring a unified action space comprising Clarify, Implement, Verify, and Submit, enabling iterative intent refinement, code synthesis, and visual feedback-based validation. Extensive experiments and analysis reveal that frontier MLLM-based agents remain trapped in blind execution, exposing limitations in intent recognition and adaptive interaction.

InteractWeb-Bench : Les agents multimodaux peuvent-ils échapper à l'exécution aveugle dans la génération de sites web interactifs ?

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Résumé

Support