ChatPaper.aiChatPaper

Ferret-UI Lite: Lecciones de la construcción de pequeños agentes GUI en dispositivos locales

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

September 30, 2025
Autores: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
cs.AI

Resumen

El desarrollo de agentes autónomos que interactúen eficazmente con Interfaces Gráficas de Usuario (GUIs) sigue siendo un problema abierto y desafiante, especialmente para modelos pequeños en dispositivos. En este artículo, presentamos Ferret-UI Lite, un agente GUI compacto y de extremo a extremo que opera en diversas plataformas, incluyendo móviles, web y escritorio. Utilizando técnicas optimizadas para el desarrollo de modelos pequeños, construimos nuestro agente Ferret-UI Lite de 3B mediante la curación de una mezcla diversa de datos GUI provenientes de fuentes reales y sintéticas, fortaleciendo el rendimiento en tiempo de inferencia a través del razonamiento en cadena de pensamiento y el uso de herramientas visuales, y el aprendizaje por refuerzo con recompensas diseñadas. Ferret-UI Lite logra un rendimiento competitivo en comparación con otros agentes GUI de pequeña escala. En la fundamentación de GUI, Ferret-UI Lite obtiene puntuaciones del 91.6%, 53.3% y 61.2% en los benchmarks ScreenSpot-V2, ScreenSpot-Pro y OSWorld-G, respectivamente. Para la navegación en GUI, Ferret-UI Lite alcanza tasas de éxito del 28.0% en AndroidWorld y del 19.8% en OSWorld. Compartimos nuestros métodos y las lecciones aprendidas en el desarrollo de agentes GUI compactos en dispositivos.
English
Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards. Ferret-UI Lite achieves competitive performance with other small-scale GUI agents. In GUI grounding, Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld and 19.8% on OSWorld. We share our methods and lessons learned from developing compact, on-device GUI agents.
PDF41October 1, 2025