UI-KOBE: 경량 그래프 기반 GUI 에이전트를 위한 지식 기반 행동 탐색
UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents
May 28, 2026
저자: Yuxiang Chai, Han Xiao, Xinyu Fu, Jinpeng Chen, Rui Liu, Hongsheng Li
cs.AI
초록
최근 모바일 GUI 에이전트의 발전은 모바일 작업 자동화에 강력한 가능성을 보여주었지만, 대부분의 효과적인 시스템은 여전히 스크린샷 이해와 장기 계획을 위해 대규모 시각-언어 모델에 의존한다. 모바일 기기에 직접 배포할 수 있는 소형 GUI 에이전트는 추론 비용이 낮고 민감한 기기 내 정보를 더 잘 보호할 수 있어 실용적 측면에서 더 매력적이다. 그러나 제한된 모델 용량으로 인해 이러한 경량 에이전트는 스크린샷만으로 GUI 작업을 종단 간 계획 및 실행하는 데 있어 여전히 신뢰성이 부족하다. 본 연구에서는 재사용 가능한 앱별 그래프 지식을 통해 경량 모바일 GUI 에이전트를 개선하는 프레임워크인 UI-KOBE(Knowledge-Oriented Behavior Exploration)를 제안한다. UI-KOBE는 먼저 모바일 애플리케이션을 자율적으로 탐색하고 앱 지식 그래프를 구축하는데, 여기서 노드는 고유한 UI 상태를, 엣지는 실행 가능한 전이를 나타낸다. 런타임 시 경량 GUI 에이전트는 이 그래프를 외부 지침으로 활용하여, 사용자 작업과 현재 스크린샷이 주어지면 현재 그래프 노드를 식별하고 해당 노드와 연관된 자기 루프 동작, 이웃 전이, 작업 완료, 또는 대체 자유 동작 중에서 선택한다. 앱별 그래프 지침을 통해 런타임 결정을 지원함으로써 UI-KOBE는 종단 간 GUI 계획의 부담을 줄이고 경량 모델이 모바일 GUI 작업을 보다 효과적으로 수행할 수 있도록 돕는다. 이는 효율적이고 해석 가능하며 개인정보 보호를 중시하는 온디바이스 GUI 에이전트를 위한 실질적인 진전을 제공한다.
English
Recent advances in mobile GUI agents have shown strong potential for automating mobile tasks, but most effective systems still depend on large vision-language models for screenshot understanding and long-horizon planning. Small GUI agents that can be deployed directly on mobile devices are more attractive for practical use, offering lower inference cost and better protection of sensitive on-device information. However, due to limited model capacity, such lightweight agents remain unreliable when planning and executing GUI tasks end-to-end from screenshots alone. We propose Knowledge-Oriented Behavior Exploration (UI-KOBE), a framework that improves lightweight mobile GUI agents with reusable app-specific graph knowledge. UI-KOBE first autonomously explores a mobile application and constructs an app knowledge graph, where nodes represent distinct UI states and edges represent executable transitions. At runtime, a lightweight GUI agent uses the graph as external guidance: given a user task and the current screenshot, it identifies the current graph node and selects among self-loop actions, neighboring transitions, task completion, or fallback free actions associated with that node. By supporting runtime decisions with app-specific graph guidance, UI-KOBE reduces the burden of end-to-end GUI planning and helps lightweight models perform mobile GUI tasks more effectively, offering a practical step toward efficient, interpretable, and privacy-conscious on-device GUI agents.