PIRA-Bench: La Transición de Agentes de Interfaz Gráfica Reactivos a Agentes de Recomendación de Intenciones Proactivos Basados en Interfaz Gráfica

Resumen

Los agentes actuales de interfaz gráfica de usuario (GUI) operan principalmente bajo un paradigma reactivo: un usuario debe proporcionar una instrucción explícita para que el agente ejecute una tarea. Sin embargo, un asistente de IA inteligente debería ser proactivo, es decir, capaz de anticipar las intenciones del usuario directamente a partir de entradas visuales continuas, como capturas de pantalla de dispositivos móviles o de escritorio, y ofrecer recomendaciones oportunas sin que el usuario las solicite explícitamente. La transición a este paradigma proactivo presenta desafíos significativos. La actividad en pantalla del mundo real rara vez es lineal; consiste en trayectorias de largo recorrido plagadas de navegación ruidosa, acciones sin sentido y cambios de tarea multitarea. Para abordar esta brecha, presentamos PIRA-Bench (Benchmark de Agentes de Recomendación de Intenciones Proactivas), un nuevo benchmark para evaluar modelos de lenguaje grandes multimodales (MLLMs) en entradas visuales continuas y débilmente supervisadas. A diferencia de los conjuntos de datos reactivos, PIRA-Bench presenta trayectorias complejas con múltiples intenciones entrelazadas y segmentos ruidosos con diversos contextos de perfil de usuario, desafiando a los agentes a detectar eventos accionables mientras se adaptan a las preferencias del usuario. Además, proponemos la línea base PIRF, un marco de seguimiento de estado con memoria que capacita a los MLLMs generales para gestionar múltiples hilos de tareas y manejar entradas visuales engañosas. PIRA-Bench sirve como un paso inicial hacia asistentes personales robustos y proactivos basados en GUI.

English

Current Graphical User Interface (GUI) agents operate primarily under a reactive paradigm: a user must provide an explicit instruction for the agent to execute a task. However, an intelligent AI assistant should be proactive, which is capable of anticipating user intentions directly from continuous visual inputs, such as mobile or desktop screenshots, and offering timely recommendations without explicit user prompting. Transitioning to this proactive paradigm presents significant challenges. Real-world screen activity is rarely linear; it consists of long-horizon trajectories fraught with noisy browsing, meaningless actions, and multithreaded task-switching. To address this gap, we introduce PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), a novel benchmark for evaluating multimodal large language models (MLLMs) on continuous, weakly-supervised visual inputs. Unlike reactive datasets, PIRA-Bench features complex trajectories with multiple interleaved intents and noisy segments with various user profile contexts, challenging agents to detect actionable events while fitting to user preferences. Furthermore, we propose the PIRF baseline, a memory-aware, state-tracking framework that empowers general MLLMs to manage multiple task threads and handle misleading visual inputs. PIRA-Bench serves as an initial step toward robust and proactive GUI-based personal assistants.

PIRA-Bench: La Transición de Agentes de Interfaz Gráfica Reactivos a Agentes de Recomendación de Intenciones Proactivos Basados en Interfaz Gráfica

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Resumen

Support