ChatPaper.aiChatPaper

Ferret-UI Lite: Lessen uit het ontwikkelen van kleine GUI-agents op apparaten

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

September 30, 2025
Auteurs: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
cs.AI

Samenvatting

Het ontwikkelen van autonome agents die effectief interacteren met Grafische Gebruikersinterfaces (GUI's) blijft een uitdagend open probleem, vooral voor kleine on-device modellen. In dit artikel presenteren we Ferret-UI Lite, een compacte, end-to-end GUI-agent die opereert op diverse platforms, waaronder mobiel, web en desktop. Door gebruik te maken van technieken die geoptimaliseerd zijn voor het ontwikkelen van kleine modellen, bouwen we onze 3B Ferret-UI Lite-agent door een diverse GUI-datamix te cureren uit echte en synthetische bronnen, de inferentieprestaties te versterken via chain-of-thought redenering en visueel gereedschapsgebruik, en reinforcement learning met ontworpen beloningen. Ferret-UI Lite behaalt competitieve prestaties in vergelijking met andere kleinschalige GUI-agents. In GUI-gronding behaalt Ferret-UI Lite scores van 91,6%, 53,3% en 61,2% op respectievelijk de ScreenSpot-V2, ScreenSpot-Pro en OSWorld-G benchmarks. Voor GUI-navigatie behaalt Ferret-UI Lite succespercentages van 28,0% op AndroidWorld en 19,8% op OSWorld. We delen onze methoden en de lessen die we hebben geleerd bij het ontwikkelen van compacte, on-device GUI-agents.
English
Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards. Ferret-UI Lite achieves competitive performance with other small-scale GUI agents. In GUI grounding, Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld and 19.8% on OSWorld. We share our methods and lessons learned from developing compact, on-device GUI agents.
PDF82October 1, 2025