UI-KOBE: Exploración de Comportamiento Orientada al Conocimiento para Agentes GUI Ligeros Guiados por Grafos

Resumen

Los avances recientes en agentes GUI móviles han demostrado un gran potencial para automatizar tareas móviles, pero la mayoría de los sistemas efectivos aún dependen de grandes modelos de visión-lenguaje para la comprensión de capturas de pantalla y la planificación a largo plazo. Los agentes GUI pequeños que pueden desplegarse directamente en dispositivos móviles son más atractivos para uso práctico, ofreciendo menor costo de inferencia y mejor protección de información sensible en el dispositivo. Sin embargo, debido a la capacidad limitada del modelo, estos agentes ligeros siguen siendo poco fiables al planificar y ejecutar tareas GUI de principio a fin solo a partir de capturas de pantalla. Proponemos Knowledge-Oriented Behavior Exploration (UI-KOBE), un marco que mejora los agentes GUI móviles ligeros con conocimiento gráfico reutilizable específico de la aplicación. UI-KOBE primero explora de forma autónoma una aplicación móvil y construye un grafo de conocimiento de la aplicación, donde los nodos representan estados distintos de la interfaz de usuario y las aristas representan transiciones ejecutables. En tiempo de ejecución, un agente GUI ligero utiliza el grafo como guía externa: dada una tarea de usuario y la captura de pantalla actual, identifica el nodo actual del grafo y selecciona entre acciones de bucle cerrado, transiciones vecinas, finalización de tarea o acciones libres de respaldo asociadas con ese nodo. Al respaldar las decisiones en tiempo de ejecución con guía gráfica específica de la aplicación, UI-KOBE reduce la carga de la planificación GUI de extremo a extremo y ayuda a los modelos ligeros a realizar tareas GUI móviles de manera más efectiva, ofreciendo un paso práctico hacia agentes GUI en el dispositivo eficientes, interpretables y conscientes de la privacidad.

English

Recent advances in mobile GUI agents have shown strong potential for automating mobile tasks, but most effective systems still depend on large vision-language models for screenshot understanding and long-horizon planning. Small GUI agents that can be deployed directly on mobile devices are more attractive for practical use, offering lower inference cost and better protection of sensitive on-device information. However, due to limited model capacity, such lightweight agents remain unreliable when planning and executing GUI tasks end-to-end from screenshots alone. We propose Knowledge-Oriented Behavior Exploration (UI-KOBE), a framework that improves lightweight mobile GUI agents with reusable app-specific graph knowledge. UI-KOBE first autonomously explores a mobile application and constructs an app knowledge graph, where nodes represent distinct UI states and edges represent executable transitions. At runtime, a lightweight GUI agent uses the graph as external guidance: given a user task and the current screenshot, it identifies the current graph node and selects among self-loop actions, neighboring transitions, task completion, or fallback free actions associated with that node. By supporting runtime decisions with app-specific graph guidance, UI-KOBE reduces the burden of end-to-end GUI planning and helps lightweight models perform mobile GUI tasks more effectively, offering a practical step toward efficient, interpretable, and privacy-conscious on-device GUI agents.