UI-KOBE: Знание-ориентированное исследование поведения для легковесных агентов GUI, управляемых графами

Аннотация

Последние достижения в области мобильных GUI-агентов продемонстрировали высокий потенциал для автоматизации мобильных задач, однако наиболее эффективные системы по-прежнему зависят от больших визуально-языковых моделей для понимания скриншотов и долгосрочного планирования. Небольшие GUI-агенты, которые могут быть развернуты непосредственно на мобильных устройствах, более привлекательны для практического использования, поскольку обеспечивают более низкую стоимость инференса и лучшую защиту конфиденциальной информации на устройстве. Однако из-за ограниченной емкости модели такие легковесные агенты остаются ненадежными при планировании и выполнении GUI-задач от начала до конца исключительно на основе скриншотов. Мы предлагаем Knowledge-Oriented Behavior Exploration (UI-KOBE) — фреймворк, который улучшает легковесные мобильные GUI-агенты с помощью многократно используемых графовых знаний, специфичных для приложения. UI-KOBE сначала автономно исследует мобильное приложение и строит граф знаний приложения, где узлы представляют различные состояния пользовательского интерфейса, а ребра — выполнимые переходы. Во время выполнения легковесный GUI-агент использует граф в качестве внешнего руководства: получив пользовательскую задачу и текущий скриншот, он идентифицирует текущий узел графа и выбирает среди действий с самопетлей, соседних переходов, завершения задачи или резервных свободных действий, связанных с этим узлом. Поддерживая решения времени выполнения с помощью графового руководства, специфичного для приложения, UI-KOBE снижает нагрузку на сквозное планирование GUI и помогает легковесным моделям более эффективно выполнять мобильные GUI-задачи, предлагая практический шаг к эффективным, интерпретируемым и ориентированным на конфиденциальность встроенным GUI-агентам.

English

Recent advances in mobile GUI agents have shown strong potential for automating mobile tasks, but most effective systems still depend on large vision-language models for screenshot understanding and long-horizon planning. Small GUI agents that can be deployed directly on mobile devices are more attractive for practical use, offering lower inference cost and better protection of sensitive on-device information. However, due to limited model capacity, such lightweight agents remain unreliable when planning and executing GUI tasks end-to-end from screenshots alone. We propose Knowledge-Oriented Behavior Exploration (UI-KOBE), a framework that improves lightweight mobile GUI agents with reusable app-specific graph knowledge. UI-KOBE first autonomously explores a mobile application and constructs an app knowledge graph, where nodes represent distinct UI states and edges represent executable transitions. At runtime, a lightweight GUI agent uses the graph as external guidance: given a user task and the current screenshot, it identifies the current graph node and selects among self-loop actions, neighboring transitions, task completion, or fallback free actions associated with that node. By supporting runtime decisions with app-specific graph guidance, UI-KOBE reduces the burden of end-to-end GUI planning and helps lightweight models perform mobile GUI tasks more effectively, offering a practical step toward efficient, interpretable, and privacy-conscious on-device GUI agents.