Ferret-UI Lite: 소형 온디바이스 GUI 에이전트 구축에서 얻은 교훈
Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
September 30, 2025
저자: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
cs.AI
초록
그래픽 사용자 인터페이스(GUI)와 효과적으로 상호작용하는 자율 에이전트를 개발하는 것은 여전히 해결해야 할 어려운 과제이며, 특히 소형 온디바이스 모델의 경우 더욱 그렇습니다. 본 논문에서는 모바일, 웹, 데스크톱 등 다양한 플랫폼에서 작동하는 소형의 종단 간(end-to-end) GUI 에이전트인 Ferret-UI Lite를 소개합니다. 소형 모델 개발에 최적화된 기술을 활용하여, 실제와 합성 소스로부터 다양한 GUI 데이터를 선별하고, 사고의 연쇄(chain-of-thought) 추론과 시각적 도구 사용을 통해 추론 시 성능을 강화하며, 설계된 보상을 통한 강화 학습을 통해 3B 규모의 Ferret-UI Lite 에이전트를 구축했습니다. Ferret-UI Lite는 다른 소규모 GUI 에이전트들과 비교하여 경쟁력 있는 성능을 보여줍니다. GUI 기반 작업에서 Ferret-UI Lite는 ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G 벤치마크에서 각각 91.6%, 53.3%, 61.2%의 점수를 달성했습니다. GUI 탐색 작업에서는 AndroidWorld에서 28.0%, OSWorld에서 19.8%의 성공률을 기록했습니다. 본 논문에서는 소형 온디바이스 GUI 에이전트 개발 과정에서 얻은 방법론과 교훈을 공유합니다.
English
Developing autonomous agents that effectively interact with Graphic User
Interfaces (GUIs) remains a challenging open problem, especially for small
on-device models. In this paper, we present Ferret-UI Lite, a compact,
end-to-end GUI agent that operates across diverse platforms, including mobile,
web, and desktop. Utilizing techniques optimized for developing small models,
we build our 3B Ferret-UI Lite agent through curating a diverse GUI data
mixture from real and synthetic sources, strengthening inference-time
performance through chain-of-thought reasoning and visual tool-use, and
reinforcement learning with designed rewards. Ferret-UI Lite achieves
competitive performance with other small-scale GUI agents. In GUI grounding,
Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the
ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI
navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld
and 19.8% on OSWorld. We share our methods and lessons learned from
developing compact, on-device GUI agents.