Когда пользователи меняют решение: оценка прерываемых агентов в долгосрочной веб-навигации

Аннотация

По мере перехода агентов на основе больших языковых моделей от решения краткосрочных статических проблем к выполнению сложных долгосрочных задач в динамичных средах, способность обрабатывать пользовательские прерывания, такие как добавление требований или изменение целей, в процессе выполнения задачи становится ключевым требованием для практического развертывания. Однако существующие бенчмарки в основном предполагают беспрерывное поведение агентов или изучают прерывания лишь в кратких, неограниченных языковых задачах. В данной статье мы представляем первое систематическое исследование прерываемых агентов в долгосрочных веб-навигационных задачах, заземленных в среде, где действия вызывают устойчивые изменения состояния. Мы формализуем три реалистичных типа прерываний: добавление, изменение и отзыв требований, а также представляем InterruptBench — бенчмарк, созданный на основе WebArena-Lite, который синтезирует высококачественные сценарии прерываний при строгих семантических ограничениях. Используя унифицированную框架у моделирования прерываний, мы оцениваем шесть мощных LLM-архитектур в условиях однократных и многократных прерываний, анализируя как их эффективность в адаптации к обновленным намерениям, так и результативность восстановления после изменений в процессе задачи. Наши результаты показывают, что эффективная и результативная обработка пользовательских прерываний в ходе долгосрочных агентских задач остается сложной проблемой даже для мощных крупномасштабных языковых моделей. Код и набор данных доступны по адресу https://github.com/HenryPengZou/InterruptBench.

English

As LLM agents transition from short, static problem solving to executing complex, long-horizon tasks in dynamic environments, the ability to handle user interruptions, such as adding requirement or revising goals, during mid-task execution is becoming a core requirement for realistic deployment. However, existing benchmarks largely assume uninterrupted agent behavior or study interruptions only in short, unconstrained language tasks. In this paper, we present the first systematic study of interruptible agents in long-horizon, environmentally grounded web navigation tasks, where actions induce persistent state changes. We formalize three realistic interruption types, including addition, revision, and retraction, and introduce InterruptBench, a benchmark derived from WebArena-Lite that synthesizes high-quality interruption scenarios under strict semantic constraints. Using a unified interruption simulation framework, we evaluate six strong LLM backbones across single- and multi-turn interruption settings, analyzing both their effectiveness in adapting to updated intents and their efficiency in recovering from mid-task changes. Our results show that handling user interruptions effectively and efficiently during long-horizon agentic tasks remains challenging for powerful large-scale LLMs. Code and dataset are available at https://github.com/HenryPengZou/InterruptBench.

Когда пользователи меняют решение: оценка прерываемых агентов в долгосрочной веб-навигации

When Users Change Their Mind: Evaluating Interruptible Agents in Long-Horizon Web Navigation

Аннотация

Support