PIRA-Bench : La transition des agents d'interface graphique réactifs vers des agents de recommandation d'intentions proactifs basés sur l'interface graphique

Résumé

Les agents d'interface utilisateur graphique (GUI) actuels fonctionnent principalement selon un paradigme réactif : un utilisateur doit fournir une instruction explicite pour que l'agent exécute une tâche. Cependant, un assistant IA intelligent devrait être proactif, c'est-à-dire capable d'anticiper les intentions de l'utilisateur directement à partir d'entrées visuelles continues, telles que des captures d'écran mobiles ou de bureau, et de proposer des recommandations opportunes sans sollicitation explicite de l'utilisateur. La transition vers ce paradigme proactif présente des défis significatifs. L'activité à l'écran dans le monde réel est rarement linéaire ; elle consiste en des trajectoires à long terme entachées de navigation bruyante, d'actions dénuées de sens et de commutation multitâche. Pour combler cette lacune, nous présentons PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), un nouveau benchmark pour évaluer les modèles de langage multimodaux (MLLM) sur des entrées visuelles continues et faiblement supervisées. Contrairement aux ensembles de données réactifs, PIRA-Bench présente des trajectoires complexes avec plusieurs intentions entrelacées et des segments bruyants dans divers contextes de profils utilisateurs, mettant au défi les agents de détecter des événements actionnables tout en s'adaptant aux préférences de l'utilisateur. De plus, nous proposons la baseline PIRF, un framework de suivi d'état avec mémoire qui permet aux MLLM généraux de gérer plusieurs threads de tâches et de traiter les entrées visuelles trompeuses. PIRA-Bench constitue une première étape vers des assistants personnels robustes et proactifs basés sur les GUI.

English

Current Graphical User Interface (GUI) agents operate primarily under a reactive paradigm: a user must provide an explicit instruction for the agent to execute a task. However, an intelligent AI assistant should be proactive, which is capable of anticipating user intentions directly from continuous visual inputs, such as mobile or desktop screenshots, and offering timely recommendations without explicit user prompting. Transitioning to this proactive paradigm presents significant challenges. Real-world screen activity is rarely linear; it consists of long-horizon trajectories fraught with noisy browsing, meaningless actions, and multithreaded task-switching. To address this gap, we introduce PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), a novel benchmark for evaluating multimodal large language models (MLLMs) on continuous, weakly-supervised visual inputs. Unlike reactive datasets, PIRA-Bench features complex trajectories with multiple interleaved intents and noisy segments with various user profile contexts, challenging agents to detect actionable events while fitting to user preferences. Furthermore, we propose the PIRF baseline, a memory-aware, state-tracking framework that empowers general MLLMs to manage multiple task threads and handle misleading visual inputs. PIRA-Bench serves as an initial step toward robust and proactive GUI-based personal assistants.

PIRA-Bench : La transition des agents d'interface graphique réactifs vers des agents de recommandation d'intentions proactifs basés sur l'interface graphique

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Résumé

Support