InteractWeb-Bench: Kunnen multimodale agenten blinde uitvoering ontvluchten bij het genereren van interactieve websites?

Samenvatting

Met de opkomst van multimodale grote taalmodellen (MLLM's) en coderingsagenten is de ontwikkeling van websites verschoven van handmatig programmeren naar agent-gebaseerde synthese van code op projectniveau. Bestaande benchmarks steunen op geïdealiseerde aannames, met name voor goed gestructureerde, informatieve inputs en statische uitvoeringsomgevingen. In de praktijk wordt ontwikkeling daarentegen beperkt door een kritieke bottleneck: de semantische kloof tussen dubbelzinnige, kwalitatief ondermaatse instructies van niet-deskundige gebruikers en het begrip van het model, wat resulteert in een foutmodus die wij *blinde uitvoering* noemen. Om deze kloof te dichten, introduceren wij InteractWeb-Bench, de eerste multimodale interactieve benchmark voor websitegeneratie onder niet-deskundige gebruikersomstandigheden met weinig code. InteractWeb-Bench introduceert vier typen gebruikersagenten en persona-gestuurde instructieverstoringen om diverse gebruikersgedragingen systematisch te simuleren, waaronder dubbelzinnigheid, redundantie en tegenstrijdigheid, gebaseerd op taxonomieën van defecten in requirement engineering. Wij ontwikkelen een interactieve uitvoeringsomgeving voor agenten, met een uniforme actieruimte bestaande uit Verduidelijken, Implementeren, Verifiëren en Indienen, waarmee iteratieve verfijning van intenties, codesynthese en validatie op basis van visuele feedback mogelijk wordt. Uitgebreide experimenten en analyses tonen aan dat toonaangevende MLLM-gebaseerde agenten vast blijven zitten in blinde uitvoering, wat beperkingen blootlegt in intentieherkenning en adaptieve interactie.

English

With the advancement of multimodal large language models (MLLMs) and coding agents, the website development has shifted from manual programming to agent-based project-level code synthesis. Existing benchmarks rely on idealized assumptions, especially for well-structured, information-rich inputs and static execution settings. In contrast, real-world development is constrained by a critical bottleneck: the semantic misalignment between ambiguous, low-quality instructions from non-expert users and model understanding, which results in a failure mode that we term blind execution. To address this gap, we introduce InteractWeb-Bench, the first multimodal interactive benchmark for website generation under non-expert low-code user conditions. InteractWeb-Bench introduces four types of user agents and persona-driven instruction perturbations to systematically simulate diverse user behaviors, including ambiguity, redundancy, and contradiction, grounded in requirement engineering defect taxonomies. We develop an interactive execution environment for agents, featuring a unified action space comprising Clarify, Implement, Verify, and Submit, enabling iterative intent refinement, code synthesis, and visual feedback-based validation. Extensive experiments and analysis reveal that frontier MLLM-based agents remain trapped in blind execution, exposing limitations in intent recognition and adaptive interaction.

InteractWeb-Bench: Kunnen multimodale agenten blinde uitvoering ontvluchten bij het genereren van interactieve websites?

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Samenvatting

Support