PIRA-Bench: Переход от реактивных GUI-агентов к проактивным агентам рекомендации намерений на основе графического интерфейса

Аннотация

Современные агенты с графическим интерфейсом пользователя (GUI) работают в основном по реактивной парадигме: пользователь должен предоставить явную инструкцию для выполнения задачи агентом. Однако интеллектуальный AI-ассистент должен быть проактивным, то есть способным предвосхищать намерения пользователя непосредственно из непрерывных визуальных входных данных, таких как скриншоты мобильных устройств или рабочих столов, и предлагать своевременные рекомендации без явного запроса пользователя. Переход к этой проактивной парадигме сопряжен со значительными трудностями. Активность на реальных экранах редко бывает линейной; она состоит из длительных траекторий, насыщенных шумным просмотром, бессмысленными действиями и многопоточным переключением между задачами. Для решения этой проблемы мы представляем PIRA-Bench (Benchmark для проактивных агентов рекомендации намерений) — новый бенчмарк для оценки мультимодальных больших языковых моделей (MLLM) на непрерывных, слабо размеченных визуальных данных. В отличие от реактивных наборов данных, PIRA-Bench содержит сложные траектории с множеством переплетающихся намерений и зашумленные сегменты с различными контекстами пользовательских профилей, что бросает вызов агентам в обнаружении actionable-событий с учетом пользовательских предпочтений. Кроме того, мы предлагаем базовый метод PIRF — фреймворк отслеживания состояния с учетом памяти, который позволяет общим MLLM управлять несколькими потоками задач и обрабатывать вводящие в заблуждение визуальные входные данные. PIRA-Bench служит первым шагом на пути к созданию надежных и проактивных персональных помощников на основе GUI.

English

Current Graphical User Interface (GUI) agents operate primarily under a reactive paradigm: a user must provide an explicit instruction for the agent to execute a task. However, an intelligent AI assistant should be proactive, which is capable of anticipating user intentions directly from continuous visual inputs, such as mobile or desktop screenshots, and offering timely recommendations without explicit user prompting. Transitioning to this proactive paradigm presents significant challenges. Real-world screen activity is rarely linear; it consists of long-horizon trajectories fraught with noisy browsing, meaningless actions, and multithreaded task-switching. To address this gap, we introduce PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), a novel benchmark for evaluating multimodal large language models (MLLMs) on continuous, weakly-supervised visual inputs. Unlike reactive datasets, PIRA-Bench features complex trajectories with multiple interleaved intents and noisy segments with various user profile contexts, challenging agents to detect actionable events while fitting to user preferences. Furthermore, we propose the PIRF baseline, a memory-aware, state-tracking framework that empowers general MLLMs to manage multiple task threads and handle misleading visual inputs. PIRA-Bench serves as an initial step toward robust and proactive GUI-based personal assistants.

PIRA-Bench: Переход от реактивных GUI-агентов к проактивным агентам рекомендации намерений на основе графического интерфейса

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Аннотация

Support