UI-KOBE : Exploration de comportement orientée connaissance pour agents GUI légers guidés par graphe

Résumé

Les récentes avancées dans les agents GUI mobiles ont montré un fort potentiel pour automatiser les tâches mobiles, mais la plupart des systèmes efficaces dépendent encore de grands modèles vision-langage pour la compréhension des captures d'écran et la planification à long terme. Les petits agents GUI, déployables directement sur les appareils mobiles, sont plus attractifs pour une utilisation pratique, offrant un coût d'inférence moindre et une meilleure protection des informations sensibles sur l'appareil. Cependant, en raison de leur capacité limitée, ces agents légers restent peu fiables lorsqu'il s'agit de planifier et d'exécuter des tâches GUI de bout en bout à partir de simples captures d'écran. Nous proposons UI-KOBE (Knowledge-Oriented Behavior Exploration), un cadre qui améliore les agents GUI mobiles légers en exploitant des connaissances graphiques réutilisables propres à chaque application. UI-KOBE explore d'abord une application mobile de manière autonome et construit un graphe de connaissances de l'application, dont les nœuds représentent des états d'interface distincts et les arêtes des transitions exécutables. Au moment de l'exécution, un agent GUI léger utilise le graphe comme guide externe : étant donnés une tâche utilisateur et la capture d'écran courante, il identifie le nœud actuel du graphe et sélectionne parmi les actions de boucle, les transitions voisines, l'achèvement de la tâche ou les actions libres de repli associées à ce nœud. En soutenant les décisions en temps réel par un guidage graphique propre à l'application, UI-KOBE réduit la charge de la planification GUI de bout en bout et aide les modèles légers à réaliser plus efficacement des tâches GUI mobiles, constituant une avancée pratique vers des agents GUI embarqués efficaces, interprétables et respectueux de la vie privée.

English

Recent advances in mobile GUI agents have shown strong potential for automating mobile tasks, but most effective systems still depend on large vision-language models for screenshot understanding and long-horizon planning. Small GUI agents that can be deployed directly on mobile devices are more attractive for practical use, offering lower inference cost and better protection of sensitive on-device information. However, due to limited model capacity, such lightweight agents remain unreliable when planning and executing GUI tasks end-to-end from screenshots alone. We propose Knowledge-Oriented Behavior Exploration (UI-KOBE), a framework that improves lightweight mobile GUI agents with reusable app-specific graph knowledge. UI-KOBE first autonomously explores a mobile application and constructs an app knowledge graph, where nodes represent distinct UI states and edges represent executable transitions. At runtime, a lightweight GUI agent uses the graph as external guidance: given a user task and the current screenshot, it identifies the current graph node and selects among self-loop actions, neighboring transitions, task completion, or fallback free actions associated with that node. By supporting runtime decisions with app-specific graph guidance, UI-KOBE reduces the burden of end-to-end GUI planning and helps lightweight models perform mobile GUI tasks more effectively, offering a practical step toward efficient, interpretable, and privacy-conscious on-device GUI agents.