Ferret-UI:基于多模态LLMs的移动UI理解Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
最近在多模态大型语言模型(MLLMs)方面取得了显著进展,然而,这些通用领域的MLLMs通常在理解和有效与用户界面(UI)屏幕交互方面表现不佳。在本文中,我们提出了Ferret-UI,这是一种专为增强对移动UI屏幕理解而定制的新型MLLM,具备指代、基准和推理能力。鉴于UI屏幕通常呈现更长的纵横比,并包含比自然图像更小的感兴趣对象(例如图标、文本),我们在Ferret上增加了“任意分辨率”功能,以放大细节并利用增强的视觉特征。具体而言,根据原始纵横比将每个屏幕分为2个子图像(即,纵向分割适用于纵向屏幕,横向分割适用于横向屏幕)。在发送到LLMs之前,这两个子图像分别进行编码。我们从广泛的基本UI任务中精心收集训练样本,例如图标识别、查找文本和小部件列表。这些样本经过格式化,附带区域注释以便于精确指代和基准。为增强模型的推理能力,我们进一步编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。在经过精心筛选的数据集上训练后,Ferret-UI展现出对UI屏幕的出色理解能力和执行开放式指令的能力。为了评估模型,我们建立了一个全面的基准,涵盖了所有前述任务。Ferret-UI不仅在大多数开源UI MLLMs方面表现优异,而且在所有基本UI任务上均超过了GPT-4V。