ChatPaper.aiChatPaper

ユーザーが気が変わる時:長期的ウェブナビゲーションにおける中断可能エージェントの評価

When Users Change Their Mind: Evaluating Interruptible Agents in Long-Horizon Web Navigation

April 1, 2026
著者: Henry Peng Zou, Chunyu Miao, Wei-Chieh Huang, Yankai Chen, Yue Zhou, Hanrong Zhang, Yaozu Wu, Liancheng Fang, Zhengyao Gu, Zhen Zhang, Kening Zheng, Fangxin Wang, Yi Nian, Shanghao Li, Wenzhe Fan, Langzhou He, Weizhi Zhang, Xue Liu, Philip S. Yu
cs.AI

要旨

LLMエージェントが、短期的で静的な問題解決から、動的環境における複雑で長期的なタスクの実行へと移行するにつれて、タスク実行中に要件の追加や目標の修正といったユーザー中断を処理する能力は、現実的な実装における中核的な要件となりつつある。しかし、既存のベンチマークの多くは、中断のないエージェントの動作を前提とするか、あるいは短期的で制約の少ない言語タスクにおける中断のみを対象としている。本論文では、アクションが永続的な状態変化を誘起する、長期的で環境に根ざしたWebナビゲーションタスクにおいて、中断可能なエージェントに関する初の体系的研究を提示する。我々は、追加、修正、撤回という3つの現実的な中断タイプを形式化し、厳密な意味的制約の下で高品質な中断シナリオを合成した、WebArena-Liteに基づくベンチマークInterruptBenchを紹介する。統一された中断シミュレーションフレームワークを用いて、単一ターン及び複数ターンの中断設定において6つの強力なLLM基盤モデルを評価し、更新された意図への適応における有効性と、タスク途中の変更からの回復における効率性の両方を分析する。結果は、強力な大規模LLMであっても、長期的なエージェントタスク中のユーザー中断を効果的かつ効率的に処理することは依然として困難であることを示している。コード及びデータセットはhttps://github.com/HenryPengZou/InterruptBench で公開されている。
English
As LLM agents transition from short, static problem solving to executing complex, long-horizon tasks in dynamic environments, the ability to handle user interruptions, such as adding requirement or revising goals, during mid-task execution is becoming a core requirement for realistic deployment. However, existing benchmarks largely assume uninterrupted agent behavior or study interruptions only in short, unconstrained language tasks. In this paper, we present the first systematic study of interruptible agents in long-horizon, environmentally grounded web navigation tasks, where actions induce persistent state changes. We formalize three realistic interruption types, including addition, revision, and retraction, and introduce InterruptBench, a benchmark derived from WebArena-Lite that synthesizes high-quality interruption scenarios under strict semantic constraints. Using a unified interruption simulation framework, we evaluate six strong LLM backbones across single- and multi-turn interruption settings, analyzing both their effectiveness in adapting to updated intents and their efficiency in recovering from mid-task changes. Our results show that handling user interruptions effectively and efficiently during long-horizon agentic tasks remains challenging for powerful large-scale LLMs. Code and dataset are available at https://github.com/HenryPengZou/InterruptBench.
PDF11April 3, 2026