ChatPaper.aiChatPaper

사용자가 마음을 바꿀 때: 장기간 웹 탐색에서 중단 가능 에이전트 평가

When Users Change Their Mind: Evaluating Interruptible Agents in Long-Horizon Web Navigation

April 1, 2026
저자: Henry Peng Zou, Chunyu Miao, Wei-Chieh Huang, Yankai Chen, Yue Zhou, Hanrong Zhang, Yaozu Wu, Liancheng Fang, Zhengyao Gu, Zhen Zhang, Kening Zheng, Fangxin Wang, Yi Nian, Shanghao Li, Wenzhe Fan, Langzhou He, Weizhi Zhang, Xue Liu, Philip S. Yu
cs.AI

초록

LLM 에이전트가 단기적이고 정적인 문제 해결에서 동적 환경에서의 복잡한 장기 과제 수행으로 전환됨에 따라, 중간 작업 실행 중 요구 사항 추가나 목표 수정과 같은 사용자 인터럽션을 처리하는 능력은 현실적인 배포를 위한 핵심 요구사항으로 부상하고 있습니다. 그러나 기존 벤치마크는 대부분 인터럽션이 없는 에이전트 행동을 가정하거나, 제약이 적은 단기 언어 과제에서만 인터럽션을 연구합니다. 본 논문에서는 행동이 지속적인 상태 변화를 유발하는 장기적이고 환경에 기반한 웹 탐색 과제에서 인터럽션 가능한 에이전트에 대한 첫 체계적인 연구를 제시합니다. 우리는 추가, 수정, 철회라는 세 가지 현실적인 인터럽션 유형을 공식화하고, 엄격한 의미론적 제약 조건 하에서 고품질 인터럽션 시나리오를 합성한 WebArena-Lite 기반 벤치마크인 InterruptBench을 소개합니다. 통합 인터럽션 시뮬레이션 프레임워크를 사용하여 단일 턴 및 다중 턴 인터럽션 설정에서 6가지 강력한 LLM 백본을 평가하며, 업데이트된 의도에 적응하는 효과성과 중간 작업 변경으로부터 회복하는 효율성을 분석합니다. 우리의 결과는 강력한 대규모 LLM에게도 장기 에이전트 과제 중 사용자 인터럽션을 효과적이고 효율적으로 처리하는 것은 여전히 어려운 과제임을 보여줍니다. 코드와 데이터셋은 https://github.com/HenryPengZou/InterruptBench에서 확인할 수 있습니다.
English
As LLM agents transition from short, static problem solving to executing complex, long-horizon tasks in dynamic environments, the ability to handle user interruptions, such as adding requirement or revising goals, during mid-task execution is becoming a core requirement for realistic deployment. However, existing benchmarks largely assume uninterrupted agent behavior or study interruptions only in short, unconstrained language tasks. In this paper, we present the first systematic study of interruptible agents in long-horizon, environmentally grounded web navigation tasks, where actions induce persistent state changes. We formalize three realistic interruption types, including addition, revision, and retraction, and introduce InterruptBench, a benchmark derived from WebArena-Lite that synthesizes high-quality interruption scenarios under strict semantic constraints. Using a unified interruption simulation framework, we evaluate six strong LLM backbones across single- and multi-turn interruption settings, analyzing both their effectiveness in adapting to updated intents and their efficiency in recovering from mid-task changes. Our results show that handling user interruptions effectively and efficiently during long-horizon agentic tasks remains challenging for powerful large-scale LLMs. Code and dataset are available at https://github.com/HenryPengZou/InterruptBench.
PDF11April 3, 2026