PIRA-Bench: Transizione dagli Agenti GUI Reattivi agli Agenti Proattivi di Raccomandazione di Intent Basati su GUI

Abstract

Gli agenti di interfaccia grafica (GUI) attuali operano principalmente secondo un paradigma reattivo: un utente deve fornire un'istruzione esplicita affinché l'agente esegua un compito. Tuttavia, un assistente IA intelligente dovrebbe essere proattivo, cioè in grado di anticipare le intenzioni dell'utente direttamente da input visivi continui, come screenshot di schermate mobili o desktop, e di offrire raccomandazioni tempestive senza una richiesta esplicita dell'utente. La transizione verso questo paradigma proattivo presenta sfide significative. L'attività sullo schermo nel mondo reale raramente è lineare; consiste in traiettorie di lungo periodo piene di navigazione rumorosa, azioni prive di significato e commutazione tra compiti multithread. Per colmare questa lacuna, introduciamo PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), un nuovo benchmark per valutare modelli linguistici di grandi dimensioni multimodali (MLLM) su input visivi continui e debolmente supervisionati. A differenza dei dataset reattivi, PIRA-Bench presenta traiettorie complesse con multiple intenzioni interallacciate e segmenti rumorosi con vari contesti di profilo utente, mettendo alla prova gli agenti nel rilevare eventi azionabili adattandosi alle preferenze dell'utente. Inoltre, proponiamo la baseline PIRF, un framework di tracciamento dello stato con memoria che consente ai MLLM generici di gestire più thread di attività e gestire input visivi fuorvianti. PIRA-Bench rappresenta un passo iniziale verso assistenti personali robusti e proattivi basati su GUI.

English

Current Graphical User Interface (GUI) agents operate primarily under a reactive paradigm: a user must provide an explicit instruction for the agent to execute a task. However, an intelligent AI assistant should be proactive, which is capable of anticipating user intentions directly from continuous visual inputs, such as mobile or desktop screenshots, and offering timely recommendations without explicit user prompting. Transitioning to this proactive paradigm presents significant challenges. Real-world screen activity is rarely linear; it consists of long-horizon trajectories fraught with noisy browsing, meaningless actions, and multithreaded task-switching. To address this gap, we introduce PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), a novel benchmark for evaluating multimodal large language models (MLLMs) on continuous, weakly-supervised visual inputs. Unlike reactive datasets, PIRA-Bench features complex trajectories with multiple interleaved intents and noisy segments with various user profile contexts, challenging agents to detect actionable events while fitting to user preferences. Furthermore, we propose the PIRF baseline, a memory-aware, state-tracking framework that empowers general MLLMs to manage multiple task threads and handle misleading visual inputs. PIRA-Bench serves as an initial step toward robust and proactive GUI-based personal assistants.

PIRA-Bench: Transizione dagli Agenti GUI Reattivi agli Agenti Proattivi di Raccomandazione di Intent Basati su GUI

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Abstract

Support