PIRA-Bench: 반응형 GUI 에이전트에서 GUI 기반 능동적 의도 추천 에이전트로의 전환
PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents
March 9, 2026
저자: Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li
cs.AI
초록
현재 그래픽 사용자 인터페이스(GUI) 에이전트는 주로 반응적 패러다임 하에서 운영됩니다. 사용자는 에이전트가 작업을 수행하기 위해 명시적인 지시를 제공해야 합니다. 그러나 지능형 AI 어시스턴트는 능동적이어야 하며, 모바일이나 데스크톱 스크린샷과 같은 연속적인 시각적 입력에서 직접 사용자 의도를 예측하고 명시적인 사용자 요청 없이도 적시에 권장 사항을 제공할 수 있어야 합니다. 이러한 능동적 패러다임으로의 전환은 상당한 과제를 안고 있습니다. 실제 화면 활동은 선형적인 경우가 거의 없으며, 노이즈가 많은 브라우징, 의미 없는 작업, 다중 스레드 작업 전환으로 가득한 장기 궤적으로 구성됩니다. 이러한 격차를 해결하기 위해 우리는 PIRA-Bench(Proactive Intent Recommendation Agent Benchmark)를 소개합니다. 이는 연속적이고 약한 감독을 받는 시각적 입력에 대한 멀티모달 대규모 언어 모델(MLLM)의 성능을 평가하기 위한 새로운 벤치마크입니다. 반응형 데이터셋과 달리, PIRA-Bench는 여러 개의 얽힌 의도와 다양한 사용자 프로필 컨텍스트를 가진 노이즈 세그먼트로 구성된 복잡한 궤적을 특징으로 하며, 에이전트가 사용자 선호도에 맞추면서 실행 가능한 이벤트를 탐지하도록 요구합니다. 더 나아가, 우리는 PIRF 베이스라인을 제안합니다. 이는 메모리 인식 상태 추적 프레임워크로, 범용 MLLM이 여러 작업 스레드를 관리하고 오해의 소지가 있는 시각적 입력을 처리할 수 있도록 합니다. PIRA-Bench는 강력하고 능동적인 GUI 기반 개인 어시스턴트를 향한 초기 단계를 제공합니다.
English
Current Graphical User Interface (GUI) agents operate primarily under a reactive paradigm: a user must provide an explicit instruction for the agent to execute a task. However, an intelligent AI assistant should be proactive, which is capable of anticipating user intentions directly from continuous visual inputs, such as mobile or desktop screenshots, and offering timely recommendations without explicit user prompting. Transitioning to this proactive paradigm presents significant challenges. Real-world screen activity is rarely linear; it consists of long-horizon trajectories fraught with noisy browsing, meaningless actions, and multithreaded task-switching. To address this gap, we introduce PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), a novel benchmark for evaluating multimodal large language models (MLLMs) on continuous, weakly-supervised visual inputs. Unlike reactive datasets, PIRA-Bench features complex trajectories with multiple interleaved intents and noisy segments with various user profile contexts, challenging agents to detect actionable events while fitting to user preferences. Furthermore, we propose the PIRF baseline, a memory-aware, state-tracking framework that empowers general MLLMs to manage multiple task threads and handle misleading visual inputs. PIRA-Bench serves as an initial step toward robust and proactive GUI-based personal assistants.