Ferret-UI Lite : Leçons tirées de la construction de petits agents d'interface graphique embarqués
Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
September 30, 2025
papers.authors: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
cs.AI
papers.abstract
Le développement d'agents autonomes capables d'interagir efficacement avec les interfaces graphiques (GUIs) reste un problème ouvert et complexe, en particulier pour les modèles légers fonctionnant directement sur les appareils. Dans cet article, nous présentons Ferret-UI Lite, un agent GUI compact et end-to-end qui opère sur diverses plateformes, incluant les mobiles, le web et les ordinateurs de bureau. En utilisant des techniques optimisées pour le développement de modèles légers, nous avons construit notre agent Ferret-UI Lite de 3 milliards de paramètres en constituant un ensemble de données GUI diversifié provenant de sources réelles et synthétiques, en renforçant les performances à l'inférence grâce au raisonnement en chaîne de pensée et à l'utilisation d'outils visuels, ainsi qu'en appliquant l'apprentissage par renforcement avec des récompenses conçues. Ferret-UI Lite atteint des performances compétitives par rapport à d'autres agents GUI de petite taille. Pour la localisation dans les GUIs, Ferret-UI Lite obtient des scores de 91,6 %, 53,3 % et 61,2 % sur les benchmarks ScreenSpot-V2, ScreenSpot-Pro et OSWorld-G, respectivement. Pour la navigation dans les GUIs, Ferret-UI Lite atteint des taux de réussite de 28,0 % sur AndroidWorld et 19,8 % sur OSWorld. Nous partageons nos méthodes et les enseignements tirés du développement d'agents GUI compacts et fonctionnant sur appareil.
English
Developing autonomous agents that effectively interact with Graphic User
Interfaces (GUIs) remains a challenging open problem, especially for small
on-device models. In this paper, we present Ferret-UI Lite, a compact,
end-to-end GUI agent that operates across diverse platforms, including mobile,
web, and desktop. Utilizing techniques optimized for developing small models,
we build our 3B Ferret-UI Lite agent through curating a diverse GUI data
mixture from real and synthetic sources, strengthening inference-time
performance through chain-of-thought reasoning and visual tool-use, and
reinforcement learning with designed rewards. Ferret-UI Lite achieves
competitive performance with other small-scale GUI agents. In GUI grounding,
Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the
ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI
navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld
and 19.8% on OSWorld. We share our methods and lessons learned from
developing compact, on-device GUI agents.