Ferret-UI Lite: Erkenntnisse aus der Entwicklung kleiner On-Device-GUI-Agenten
Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
September 30, 2025
papers.authors: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
cs.AI
papers.abstract
Die Entwicklung autonomer Agenten, die effektiv mit grafischen Benutzeroberflächen (GUIs) interagieren, bleibt eine herausfordernde offene Problemstellung, insbesondere für kleine On-Device-Modelle. In diesem Artikel präsentieren wir Ferret-UI Lite, einen kompakten, end-to-end GUI-Agenten, der auf verschiedenen Plattformen wie Mobilgeräten, Web und Desktop arbeitet. Durch die Nutzung von Techniken, die für die Entwicklung kleiner Modelle optimiert sind, bauen wir unseren 3B Ferret-UI Lite-Agenten durch die Zusammenstellung einer vielfältigen GUI-Datenmischung aus realen und synthetischen Quellen, die Stärkung der Inferenzleistung durch Chain-of-Thought-Reasoning und visuelle Werkzeugnutzung sowie durch Reinforcement Learning mit speziell entwickelten Belohnungen. Ferret-UI Lite erzielt eine wettbewerbsfähige Leistung im Vergleich zu anderen GUI-Agenten im kleinen Maßstab. Bei der GUI-Verankerung erreicht Ferret-UI Lite Werte von 91,6 %, 53,3 % und 61,2 % in den Benchmarks ScreenSpot-V2, ScreenSpot-Pro und OSWorld-G. Bei der GUI-Navigation erzielt Ferret-UI Lite Erfolgsquoten von 28,0 % auf AndroidWorld und 19,8 % auf OSWorld. Wir teilen unsere Methoden und die Erkenntnisse, die wir aus der Entwicklung kompakter On-Device-GUI-Agenten gewonnen haben.
English
Developing autonomous agents that effectively interact with Graphic User
Interfaces (GUIs) remains a challenging open problem, especially for small
on-device models. In this paper, we present Ferret-UI Lite, a compact,
end-to-end GUI agent that operates across diverse platforms, including mobile,
web, and desktop. Utilizing techniques optimized for developing small models,
we build our 3B Ferret-UI Lite agent through curating a diverse GUI data
mixture from real and synthetic sources, strengthening inference-time
performance through chain-of-thought reasoning and visual tool-use, and
reinforcement learning with designed rewards. Ferret-UI Lite achieves
competitive performance with other small-scale GUI agents. In GUI grounding,
Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the
ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI
navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld
and 19.8% on OSWorld. We share our methods and lessons learned from
developing compact, on-device GUI agents.