ChatPaper.aiChatPaper

Ferret-UI Lite: 小型オンデバイスGUIエージェント構築からの教訓

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

September 30, 2025
著者: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
cs.AI

要旨

グラフィカルユーザーインターフェース(GUI)と効果的に相互作用する自律エージェントの開発は、特に小型のオンデバイスモデルにおいて、依然として難しい未解決の問題です。本論文では、モバイル、ウェブ、デスクトップなど多様なプラットフォームで動作するコンパクトなエンドツーエンドGUIエージェントであるFerret-UI Liteを紹介します。小型モデルの開発に最適化された技術を活用し、実データと合成データからなる多様なGUIデータの混合をキュレーションし、連鎖思考推論と視覚的ツール使用による推論時の性能強化、および設計された報酬を用いた強化学習を通じて、3BのFerret-UI Liteエージェントを構築しました。Ferret-UI Liteは、他の小規模GUIエージェントと競争力のある性能を達成しています。GUIグラウンディングにおいて、Ferret-UI LiteはScreenSpot-V2、ScreenSpot-Pro、OSWorld-Gベンチマークでそれぞれ91.6%、53.3%、61.2%のスコアを獲得しました。GUIナビゲーションでは、Ferret-UI LiteはAndroidWorldで28.0%、OSWorldで19.8%の成功率を達成しました。我々は、コンパクトなオンデバイスGUIエージェントの開発から得られた手法と教訓を共有します。
English
Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards. Ferret-UI Lite achieves competitive performance with other small-scale GUI agents. In GUI grounding, Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld and 19.8% on OSWorld. We share our methods and lessons learned from developing compact, on-device GUI agents.
PDF41October 1, 2025