UI-KOBE: Exploração de Comportamento Orientado ao Conhecimento para Agentes de GUI Leves Guiados por Grafos

Resumo

Avanços recentes em agentes de GUI móvel demonstram forte potencial para automatizar tarefas em dispositivos móveis, mas a maioria dos sistemas eficazes ainda depende de grandes modelos de visão-linguagem para compreensão de capturas de tela e planejamento de longo horizonte. Agentes de GUI pequenos, que podem ser implantados diretamente em dispositivos móveis, são mais atrativos para uso prático, oferecendo menor custo de inferência e melhor proteção de informações sensíveis no dispositivo. No entanto, devido à capacidade limitada do modelo, tais agentes leves permanecem pouco confiáveis ao planejar e executar tarefas de GUI ponta a ponta apenas a partir de capturas de tela. Propomos a Exploração de Comportamento Orientada ao Conhecimento (UI-KOBE), uma estrutura que aprimora agentes leves de GUI móvel com conhecimento de grafo reutilizável específico do aplicativo. O UI-KOBE primeiro explora autonomamente um aplicativo móvel e constrói um grafo de conhecimento do aplicativo, onde nós representam estados distintos da interface do usuário (UI) e arestas representam transições executáveis. Em tempo de execução, um agente leve de GUI utiliza o grafo como orientação externa: dada uma tarefa do usuário e a captura de tela atual, ele identifica o nó atual do grafo e seleciona entre ações de autoloop, transições vizinhas, conclusão da tarefa ou ações livres de fallback associadas àquele nó. Ao apoiar decisões em tempo de execução com orientação do grafo específico do aplicativo, o UI-KOBE reduz a carga do planejamento de GUI ponta a ponta e ajuda modelos leves a executar tarefas de GUI móvel de forma mais eficaz, oferecendo um passo prático em direção a agentes de GUI no dispositivo eficientes, interpretáveis e conscientes da privacidade.

English

Recent advances in mobile GUI agents have shown strong potential for automating mobile tasks, but most effective systems still depend on large vision-language models for screenshot understanding and long-horizon planning. Small GUI agents that can be deployed directly on mobile devices are more attractive for practical use, offering lower inference cost and better protection of sensitive on-device information. However, due to limited model capacity, such lightweight agents remain unreliable when planning and executing GUI tasks end-to-end from screenshots alone. We propose Knowledge-Oriented Behavior Exploration (UI-KOBE), a framework that improves lightweight mobile GUI agents with reusable app-specific graph knowledge. UI-KOBE first autonomously explores a mobile application and constructs an app knowledge graph, where nodes represent distinct UI states and edges represent executable transitions. At runtime, a lightweight GUI agent uses the graph as external guidance: given a user task and the current screenshot, it identifies the current graph node and selects among self-loop actions, neighboring transitions, task completion, or fallback free actions associated with that node. By supporting runtime decisions with app-specific graph guidance, UI-KOBE reduces the burden of end-to-end GUI planning and helps lightweight models perform mobile GUI tasks more effectively, offering a practical step toward efficient, interpretable, and privacy-conscious on-device GUI agents.