UI-KOBE: Kennisgeoriënteerde Gedragsverkenning voor Lichtgewicht Graafgeleide GUI-Agenten

Samenvatting

Recente vooruitgang in mobiele GUI-agenten heeft een sterk potentieel getoond voor het automatiseren van mobiele taken, maar de meeste effectieve systemen zijn nog steeds afhankelijk van grote visie-taalmodellen voor het begrijpen van schermafbeeldingen en planning op lange termijn. Kleine GUI-agenten die direct op mobiele apparaten kunnen worden ingezet, zijn aantrekkelijker voor praktisch gebruik, omdat ze lagere inferentiekosten en een betere bescherming van gevoelige informatie op het apparaat bieden. Door de beperkte modelcapaciteit blijven dergelijke lichtgewicht agenten echter onbetrouwbaar bij het plannen en uitvoeren van GUI-taken van begin tot eind op basis van alleen schermafbeeldingen. Wij stellen Knowledge-Oriented Behavior Exploration (UI-KOBE) voor, een raamwerk dat lichtgewicht mobiele GUI-agenten verbetert met herbruikbare app-specifieke grafiekkennis. UI-KOBE verkent eerst autonoom een mobiele applicatie en construeert een app-kennisgraaf, waarin knooppunten verschillende UI-toestanden voorstellen en randen uitvoerbare overgangen voorstellen. Tijdens runtime gebruikt een lichtgewicht GUI-agent de graaf als externe begeleiding: gegeven een gebruikerstaak en de huidige schermafbeelding identificeert het het huidige graafknooppunt en kiest uit zelflusacties, naburige overgangen, taakvoltooiing of vrije terugvalacties die aan dat knooppunt zijn gekoppeld. Door runtime-beslissingen te ondersteunen met app-specifieke grafiekbegeleiding vermindert UI-KOBE de last van end-to-end GUI-planning en helpt het lichtgewicht modellen mobiele GUI-taken effectiever uit te voeren, wat een praktische stap biedt richting efficiënte, interpreteerbare en privacybewuste GUI-agenten op het apparaat.

English

Recent advances in mobile GUI agents have shown strong potential for automating mobile tasks, but most effective systems still depend on large vision-language models for screenshot understanding and long-horizon planning. Small GUI agents that can be deployed directly on mobile devices are more attractive for practical use, offering lower inference cost and better protection of sensitive on-device information. However, due to limited model capacity, such lightweight agents remain unreliable when planning and executing GUI tasks end-to-end from screenshots alone. We propose Knowledge-Oriented Behavior Exploration (UI-KOBE), a framework that improves lightweight mobile GUI agents with reusable app-specific graph knowledge. UI-KOBE first autonomously explores a mobile application and constructs an app knowledge graph, where nodes represent distinct UI states and edges represent executable transitions. At runtime, a lightweight GUI agent uses the graph as external guidance: given a user task and the current screenshot, it identifies the current graph node and selects among self-loop actions, neighboring transitions, task completion, or fallback free actions associated with that node. By supporting runtime decisions with app-specific graph guidance, UI-KOBE reduces the burden of end-to-end GUI planning and helps lightweight models perform mobile GUI tasks more effectively, offering a practical step toward efficient, interpretable, and privacy-conscious on-device GUI agents.