InteractWeb-Bench: Gli agenti multimodali possono evitare l'esecuzione cieca nella generazione di siti web interattivi?

Abstract

Con l'avanzamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) e degli agenti di programmazione, lo sviluppo di siti web si è evoluto dalla programmazione manuale alla sintesi di codice a livello di progetto basata su agenti. I benchmark esistenti si basano su assunzioni idealizzate, in particolare per input ben strutturati, ricchi di informazioni e ambienti di esecuzione statici. Al contrario, lo sviluppo nel mondo reale è limitato da un collo di bottiglia critico: il disallineamento semantico tra istruzioni ambigue e di bassa qualità provenienti da utenti non esperti e la comprensione del modello, che risulta in una modalità di fallimento che definiamo esecuzione cieca (blind execution). Per colmare questa lacuna, introduciamo InteractWeb-Bench, il primo benchmark interattivo multimodale per la generazione di siti web in condizioni di utenti non esperti con approccio low-code. InteractWeb-Bench introduce quattro tipi di agenti utente e perturbazioni delle istruzioni guidate da personaggi per simulare sistematicamente comportamenti utente diversificati, inclusi ambiguità, ridondanza e contraddizioni, basandosi sulle tassonomie dei difgetti nell'ingegneria dei requisiti. Sviluppiamo un ambiente di esecuzione interattivo per gli agenti, caratterizzato da uno spazio di azione unificato che comprende Chiarire, Implementare, Verificare e Inviare, consentendo un raffinamento iterativo dell'intento, la sintesi del codice e una convalida basata sul feedback visivo. Esperimenti estensivi e analisi rivelano che gli agenti all'avanguardia basati su MLLM rimangono intrappolati nell'esecuzione cieca, esponendo limitazioni nel riconoscimento dell'intento e nell'interazione adattiva.

English

With the advancement of multimodal large language models (MLLMs) and coding agents, the website development has shifted from manual programming to agent-based project-level code synthesis. Existing benchmarks rely on idealized assumptions, especially for well-structured, information-rich inputs and static execution settings. In contrast, real-world development is constrained by a critical bottleneck: the semantic misalignment between ambiguous, low-quality instructions from non-expert users and model understanding, which results in a failure mode that we term blind execution. To address this gap, we introduce InteractWeb-Bench, the first multimodal interactive benchmark for website generation under non-expert low-code user conditions. InteractWeb-Bench introduces four types of user agents and persona-driven instruction perturbations to systematically simulate diverse user behaviors, including ambiguity, redundancy, and contradiction, grounded in requirement engineering defect taxonomies. We develop an interactive execution environment for agents, featuring a unified action space comprising Clarify, Implement, Verify, and Submit, enabling iterative intent refinement, code synthesis, and visual feedback-based validation. Extensive experiments and analysis reveal that frontier MLLM-based agents remain trapped in blind execution, exposing limitations in intent recognition and adaptive interaction.

InteractWeb-Bench: Gli agenti multimodali possono evitare l'esecuzione cieca nella generazione di siti web interattivi?

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Abstract

Support