Ferret-UI: Gegrond Begrip van Mobiele UI's met Multimodale LLM's
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
April 8, 2024
Auteurs: Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan
cs.AI
Samenvatting
Recente vooruitgang in multimodale grote taalmodellen (MLLMs) is opmerkelijk, maar deze algemene MLLMs schieten vaak tekort in hun vermogen om gebruikersinterface (UI)-schermen effectief te begrijpen en ermee te interacteren. In dit artikel presenteren we Ferret-UI, een nieuw MLLM dat is afgestemd op een verbeterd begrip van mobiele UI-schermen, uitgerust met verwijzings-, verankerings- en redeneercapaciteiten. Gezien het feit dat UI-schermen doorgaans een langwerpiger beeldverhouding hebben en kleinere objecten van belang bevatten (bijv. iconen, teksten) dan natuurlijke afbeeldingen, integreren we "elke resolutie" bovenop Ferret om details te vergroten en verbeterde visuele kenmerken te benutten. Specifiek wordt elk scherm verdeeld in 2 subafbeeldingen op basis van de originele beeldverhouding (d.w.z. horizontale verdeling voor portretschermen en verticale verdeling voor landschapsschermen). Beide subafbeeldingen worden afzonderlijk gecodeerd voordat ze naar LLMs worden gestuurd. We verzinnen zorgvuldig trainingsmonsters uit een uitgebreid scala aan elementaire UI-taken, zoals iconenherkenning, tekst vinden en widgetlijsten. Deze monsters zijn geformatteerd voor instructievolging met regioannotaties om precieze verwijzing en verankering te vergemakkelijken. Om het redeneervermogen van het model te vergroten, stellen we verder een dataset samen voor geavanceerde taken, waaronder gedetailleerde beschrijving, perceptie/interactiegesprekken en functie-inferentie. Na training op de samengestelde datasets toont Ferret-UI een uitstekend begrip van UI-schermen en de mogelijkheid om open instructies uit te voeren. Voor model evaluatie stellen we een uitgebreide benchmark op die alle bovengenoemde taken omvat. Ferret-UI presteert niet alleen beter dan de meeste open-source UI MLLMs, maar overtreft ook GPT-4V op alle elementaire UI-taken.
English
Recent advancements in multimodal large language models (MLLMs) have been
noteworthy, yet, these general-domain MLLMs often fall short in their ability
to comprehend and interact effectively with user interface (UI) screens. In
this paper, we present Ferret-UI, a new MLLM tailored for enhanced
understanding of mobile UI screens, equipped with referring, grounding, and
reasoning capabilities. Given that UI screens typically exhibit a more
elongated aspect ratio and contain smaller objects of interest (e.g., icons,
texts) than natural images, we incorporate "any resolution" on top of Ferret to
magnify details and leverage enhanced visual features. Specifically, each
screen is divided into 2 sub-images based on the original aspect ratio (i.e.,
horizontal division for portrait screens and vertical division for landscape
screens). Both sub-images are encoded separately before being sent to LLMs. We
meticulously gather training samples from an extensive range of elementary UI
tasks, such as icon recognition, find text, and widget listing. These samples
are formatted for instruction-following with region annotations to facilitate
precise referring and grounding. To augment the model's reasoning ability, we
further compile a dataset for advanced tasks, including detailed description,
perception/interaction conversations, and function inference. After training on
the curated datasets, Ferret-UI exhibits outstanding comprehension of UI
screens and the capability to execute open-ended instructions. For model
evaluation, we establish a comprehensive benchmark encompassing all the
aforementioned tasks. Ferret-UI excels not only beyond most open-source UI
MLLMs, but also surpasses GPT-4V on all the elementary UI tasks.