InteractWeb-Bench: Может ли мультимодальный агент избежать слепого выполнения при генерации интерактивных веб-сайтов?

Аннотация

С развитием мультимодальных больших языковых моделей (МБЯМ) и кодовых агентов разработка веб-сайтов перешла от ручного программирования к синтезу кода на уровне проектов с помощью агентов. Существующие бенчмарки опираются на идеализированные предположения, особенно в отношении хорошо структурированных, информационно насыщенных входных данных и статичных сред выполнения. В отличие от этого, реальная разработка ограничена критическим узким местом: семантическим несоответствием между неоднозначными, низкокачественными инструкциями от неопытных пользователей и пониманием модели, что приводит к режиму сбоя, который мы называем *слепым выполнением*. Для устранения этого пробела мы представляем InteractWeb-Bench — первый мультимодальный интерактивный бенчмарк для генерации веб-сайтов в условиях пользователей с низким уровнем квалификации в программировании. InteractWeb-Bench вводит четыре типа пользовательских агентов и персонализированные возмущения инструкций для системного моделирования разнообразного пользовательского поведения, включая неоднозначность, избыточность и противоречия, основанные на таксономиях дефектов в инженерии требований. Мы разрабатываем интерактивную среду выполнения для агентов, включающую единое пространство действий: Уточнить, Реализовать, Проверить и Отправить, что позволяет осуществлять итеративное уточнение намерений, синтез кода и валидацию на основе визуальной обратной связи. Многочисленные эксперименты и анализ показывают, что передовые агенты на основе МБЯМ остаются в ловушке слепого выполнения, демонстрируя ограничения в распознавании намерений и адаптивном взаимодействии.

English

With the advancement of multimodal large language models (MLLMs) and coding agents, the website development has shifted from manual programming to agent-based project-level code synthesis. Existing benchmarks rely on idealized assumptions, especially for well-structured, information-rich inputs and static execution settings. In contrast, real-world development is constrained by a critical bottleneck: the semantic misalignment between ambiguous, low-quality instructions from non-expert users and model understanding, which results in a failure mode that we term blind execution. To address this gap, we introduce InteractWeb-Bench, the first multimodal interactive benchmark for website generation under non-expert low-code user conditions. InteractWeb-Bench introduces four types of user agents and persona-driven instruction perturbations to systematically simulate diverse user behaviors, including ambiguity, redundancy, and contradiction, grounded in requirement engineering defect taxonomies. We develop an interactive execution environment for agents, featuring a unified action space comprising Clarify, Implement, Verify, and Submit, enabling iterative intent refinement, code synthesis, and visual feedback-based validation. Extensive experiments and analysis reveal that frontier MLLM-based agents remain trapped in blind execution, exposing limitations in intent recognition and adaptive interaction.

InteractWeb-Bench: Может ли мультимодальный агент избежать слепого выполнения при генерации интерактивных веб-сайтов?

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

Аннотация

Support