ChatPaper.aiChatPaper

Ferret-UI Lite: Уроки создания компактных агентов графического интерфейса для устройств

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

September 30, 2025
Авторы: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
cs.AI

Аннотация

Разработка автономных агентов, эффективно взаимодействующих с графическими пользовательскими интерфейсами (GUI), остается сложной и нерешенной задачей, особенно для компактных моделей, работающих непосредственно на устройстве. В данной статье мы представляем Ferret-UI Lite — компактного, сквозного агента для работы с GUI, который функционирует на различных платформах, включая мобильные устройства, веб и настольные системы. Используя методы, оптимизированные для разработки небольших моделей, мы создали наш 3B-агент Ferret-UI Lite, объединив разнообразные данные GUI из реальных и синтетических источников, улучшив производительность на этапе вывода с помощью цепочек рассуждений (chain-of-thought) и визуальных инструментов, а также применив обучение с подкреплением с разработанными наградами. Ferret-UI Lite демонстрирует конкурентоспособные результаты по сравнению с другими небольшими агентами для работы с GUI. В задачах локализации элементов интерфейса Ferret-UI Lite достигает показателей 91,6%, 53,3% и 61,2% на бенчмарках ScreenSpot-V2, ScreenSpot-Pro и OSWorld-G соответственно. В задачах навигации по GUI Ferret-UI Lite показывает успешность 28,0% на AndroidWorld и 19,8% на OSWorld. Мы делимся нашими методами и извлеченными уроками в процессе разработки компактных агентов для работы с GUI на устройстве.
English
Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards. Ferret-UI Lite achieves competitive performance with other small-scale GUI agents. In GUI grounding, Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld and 19.8% on OSWorld. We share our methods and lessons learned from developing compact, on-device GUI agents.
PDF41October 1, 2025