InteractWeb-Bench: Können multimodale Agenten dem blinden Ausführen bei der interaktiven Webseitengenerierung entkommen?

Zusammenfassung

Mit der Weiterentwicklung multimodaler großer Sprachmodelle (MLLMs) und Code-Agenten hat sich die Website-Entwicklung von der manuellen Programmierung zur agentenbasierten, projektweiten Codesynthese verlagert. Bestehende Benchmarks beruhen auf idealisierten Annahmen, insbesondere für wohlstrukturierte, informationsreiche Eingaben und statische Ausführungsumgebungen. Im Gegensatz dazu ist die reale Entwicklung durch einen kritischen Engpass eingeschränkt: die semantische Fehlausrichtung zwischen mehrdeutigen, qualitativ minderwertigen Anweisungen von Laiennutzern und dem Modellverständnis, was zu einem Fehlermodus führt, den wir als *Blind Execution* (blindes Ausführen) bezeichnen. Um diese Lücke zu schließen, stellen wir InteractWeb-Bench vor, den ersten multimodalen, interaktiven Benchmark für die Website-Generierung unter Bedingungen von Laiennutzern mit Low-Code-Anforderungen. InteractWeb-Bench führt vier Typen von Nutzeragenten und persona-gesteuerte Anweisungsperturbationen ein, um systematisch diverse Nutzerverhaltensweisen – einschließlich Mehrdeutigkeit, Redundanz und Widersprüchlichkeit – auf Grundlage von Taxonomien aus dem Requirements Engineering zu simulieren. Wir entwickeln eine interaktive Ausführungsumgebung für Agenten mit einem einheitlichen Aktionsraum, der die Aktionen Klärung, Implementierung, Verifikation und Einreichung umfasst und iterative Intentionsverfeinerung, Codesynthese und visuelle validierungsbasierte Rückmeldung ermöglicht. Umfangreiche Experimente und Analysen zeigen, dass führende MLLM-basierte Agenten nach wie vor in blindem Ausführen gefangen bleiben, was Grenzen in der Intentionserkennung und adaptiven Interaktion offenlegt.

English

With the advancement of multimodal large language models (MLLMs) and coding agents, the website development has shifted from manual programming to agent-based project-level code synthesis. Existing benchmarks rely on idealized assumptions, especially for well-structured, information-rich inputs and static execution settings. In contrast, real-world development is constrained by a critical bottleneck: the semantic misalignment between ambiguous, low-quality instructions from non-expert users and model understanding, which results in a failure mode that we term blind execution. To address this gap, we introduce InteractWeb-Bench, the first multimodal interactive benchmark for website generation under non-expert low-code user conditions. InteractWeb-Bench introduces four types of user agents and persona-driven instruction perturbations to systematically simulate diverse user behaviors, including ambiguity, redundancy, and contradiction, grounded in requirement engineering defect taxonomies. We develop an interactive execution environment for agents, featuring a unified action space comprising Clarify, Implement, Verify, and Submit, enabling iterative intent refinement, code synthesis, and visual feedback-based validation. Extensive experiments and analysis reveal that frontier MLLM-based agents remain trapped in blind execution, exposing limitations in intent recognition and adaptive interaction.

InteractWeb-Bench: Können multimodale Agenten dem blinden Ausführen bei der interaktiven Webseitengenerierung entkommen?

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Zusammenfassung

Support