PIRA-Bench: A Transição de Agentes de Interface Gráfica Reativos para Agentes Proativos de Recomendação de Intenção Baseados em Interface Gráfica

Resumo

Os agentes atuais de Interface Gráfica do Utilizador (GUI) operam principalmente sob um paradigma reativo: um utilizador deve fornecer uma instrução explícita para o agente executar uma tarefa. No entanto, um assistente de IA inteligente deve ser proativo, sendo capaz de antecipar as intenções do utilizador diretamente a partir de entradas visuais contínuas, como capturas de ecrã de telemóveis ou computadores, e oferecer recomendações oportunas sem solicitação explícita do utilizador. A transição para este paradigma proativo apresenta desafios significativos. A atividade do ecrã no mundo real raramente é linear; consiste em trajetórias de longo prazo repletas de navegação ruidosa, ações sem significado e troca de tarefas multithread. Para colmatar esta lacuna, apresentamos o PIRA-Bench (Benchmark de Agente de Recomendação de Intenção Proativa), um novo benchmark para avaliar modelos de linguagem grandes multimodais (MLLMs) em entradas visuais contínuas e fracamente supervisionadas. Ao contrário de conjuntos de dados reativos, o PIRA-Bench apresenta trajetórias complexas com múltiplas intenções intercaladas e segmentos ruidosos com vários contextos de perfil do utilizador, desafiando os agentes a detetar eventos acionáveis enquanto se adaptam às preferências do utilizador. Além disso, propomos a linha de base PIRF, uma estrutura de rastreamento de estado com consciência da memória que capacita MLLMs gerais para gerir múltiplos threads de tarefas e lidar com entradas visuais enganosas. O PIRA-Bench serve como um passo inicial rumo a assistentes pessoais robustos e proativos baseados em GUI.

English

Current Graphical User Interface (GUI) agents operate primarily under a reactive paradigm: a user must provide an explicit instruction for the agent to execute a task. However, an intelligent AI assistant should be proactive, which is capable of anticipating user intentions directly from continuous visual inputs, such as mobile or desktop screenshots, and offering timely recommendations without explicit user prompting. Transitioning to this proactive paradigm presents significant challenges. Real-world screen activity is rarely linear; it consists of long-horizon trajectories fraught with noisy browsing, meaningless actions, and multithreaded task-switching. To address this gap, we introduce PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), a novel benchmark for evaluating multimodal large language models (MLLMs) on continuous, weakly-supervised visual inputs. Unlike reactive datasets, PIRA-Bench features complex trajectories with multiple interleaved intents and noisy segments with various user profile contexts, challenging agents to detect actionable events while fitting to user preferences. Furthermore, we propose the PIRF baseline, a memory-aware, state-tracking framework that empowers general MLLMs to manage multiple task threads and handle misleading visual inputs. PIRA-Bench serves as an initial step toward robust and proactive GUI-based personal assistants.

PIRA-Bench: A Transição de Agentes de Interface Gráfica Reativos para Agentes Proativos de Recomendação de Intenção Baseados em Interface Gráfica

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Resumo

Support