Ferret-UI Lite: Lições da Construção de Pequenos Agentes de Interface Gráfica em Dispositivos Locais
Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
September 30, 2025
Autores: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
cs.AI
Resumo
O desenvolvimento de agentes autônomos que interagem efetivamente com Interfaces Gráficas de Usuário (GUIs) continua sendo um problema aberto e desafiador, especialmente para modelos compactos em dispositivos. Neste artigo, apresentamos o Ferret-UI Lite, um agente de GUI compacto e de ponta a ponta que opera em diversas plataformas, incluindo mobile, web e desktop. Utilizando técnicas otimizadas para o desenvolvimento de modelos compactos, construímos nosso agente Ferret-UI Lite de 3B por meio da curadoria de uma mistura diversificada de dados de GUI provenientes de fontes reais e sintéticas, fortalecendo o desempenho em tempo de inferência por meio de raciocínio em cadeia de pensamento e uso de ferramentas visuais, e aprendizado por reforço com recompensas projetadas. O Ferret-UI Lite alcança um desempenho competitivo em comparação com outros agentes de GUI de pequena escala. Na fundamentação de GUI, o Ferret-UI Lite obtém pontuações de 91,6%, 53,3% e 61,2% nos benchmarks ScreenSpot-V2, ScreenSpot-Pro e OSWorld-G, respectivamente. Para navegação em GUI, o Ferret-UI Lite alcança taxas de sucesso de 28,0% no AndroidWorld e 19,8% no OSWorld. Compartilhamos nossos métodos e lições aprendidas no desenvolvimento de agentes de GUI compactos e em dispositivos.
English
Developing autonomous agents that effectively interact with Graphic User
Interfaces (GUIs) remains a challenging open problem, especially for small
on-device models. In this paper, we present Ferret-UI Lite, a compact,
end-to-end GUI agent that operates across diverse platforms, including mobile,
web, and desktop. Utilizing techniques optimized for developing small models,
we build our 3B Ferret-UI Lite agent through curating a diverse GUI data
mixture from real and synthetic sources, strengthening inference-time
performance through chain-of-thought reasoning and visual tool-use, and
reinforcement learning with designed rewards. Ferret-UI Lite achieves
competitive performance with other small-scale GUI agents. In GUI grounding,
Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the
ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI
navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld
and 19.8% on OSWorld. We share our methods and lessons learned from
developing compact, on-device GUI agents.