ChatPaper.aiChatPaper

Ferret-UI Lite: Lezioni dalla costruzione di piccoli agenti GUI su dispositivo

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

September 30, 2025
Autori: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
cs.AI

Abstract

Lo sviluppo di agenti autonomi che interagiscono efficacemente con le interfacce grafiche (GUI) rimane un problema aperto e impegnativo, specialmente per i modelli di piccole dimensioni eseguiti direttamente sui dispositivi. In questo articolo, presentiamo Ferret-UI Lite, un agente GUI compatto e end-to-end che opera su diverse piattaforme, inclusi dispositivi mobili, web e desktop. Utilizzando tecniche ottimizzate per lo sviluppo di modelli di piccole dimensioni, abbiamo costruito il nostro agente Ferret-UI Lite da 3B attraverso la creazione di un insieme diversificato di dati GUI provenienti da fonti reali e sintetiche, il potenziamento delle prestazioni in fase di inferenza mediante il ragionamento a catena di pensiero e l'uso di strumenti visivi, e l'apprendimento per rinforzo con ricompense progettate. Ferret-UI Lite raggiunge prestazioni competitive rispetto ad altri agenti GUI di piccole dimensioni. Nel grounding delle GUI, Ferret-UI Lite ottiene punteggi del 91,6%, 53,3% e 61,2% rispettivamente sui benchmark ScreenSpot-V2, ScreenSpot-Pro e OSWorld-G. Per la navigazione nelle GUI, Ferret-UI Lite raggiunge tassi di successo del 28,0% su AndroidWorld e del 19,8% su OSWorld. Condividiamo i nostri metodi e le lezioni apprese dallo sviluppo di agenti GUI compatti e eseguiti direttamente sui dispositivi.
English
Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards. Ferret-UI Lite achieves competitive performance with other small-scale GUI agents. In GUI grounding, Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld and 19.8% on OSWorld. We share our methods and lessons learned from developing compact, on-device GUI agents.
PDF82October 1, 2025