Ferret-UI: Gegrond Begrip van Mobiele UI's met Multimodale LLM's

Samenvatting

Recente vooruitgang in multimodale grote taalmodellen (MLLMs) is opmerkelijk, maar deze algemene MLLMs schieten vaak tekort in hun vermogen om gebruikersinterface (UI)-schermen effectief te begrijpen en ermee te interacteren. In dit artikel presenteren we Ferret-UI, een nieuw MLLM dat is afgestemd op een verbeterd begrip van mobiele UI-schermen, uitgerust met verwijzings-, verankerings- en redeneercapaciteiten. Gezien het feit dat UI-schermen doorgaans een langwerpiger beeldverhouding hebben en kleinere objecten van belang bevatten (bijv. iconen, teksten) dan natuurlijke afbeeldingen, integreren we "elke resolutie" bovenop Ferret om details te vergroten en verbeterde visuele kenmerken te benutten. Specifiek wordt elk scherm verdeeld in 2 subafbeeldingen op basis van de originele beeldverhouding (d.w.z. horizontale verdeling voor portretschermen en verticale verdeling voor landschapsschermen). Beide subafbeeldingen worden afzonderlijk gecodeerd voordat ze naar LLMs worden gestuurd. We verzinnen zorgvuldig trainingsmonsters uit een uitgebreid scala aan elementaire UI-taken, zoals iconenherkenning, tekst vinden en widgetlijsten. Deze monsters zijn geformatteerd voor instructievolging met regioannotaties om precieze verwijzing en verankering te vergemakkelijken. Om het redeneervermogen van het model te vergroten, stellen we verder een dataset samen voor geavanceerde taken, waaronder gedetailleerde beschrijving, perceptie/interactiegesprekken en functie-inferentie. Na training op de samengestelde datasets toont Ferret-UI een uitstekend begrip van UI-schermen en de mogelijkheid om open instructies uit te voeren. Voor model evaluatie stellen we een uitgebreide benchmark op die alle bovengenoemde taken omvat. Ferret-UI presteert niet alleen beter dan de meeste open-source UI MLLMs, maar overtreft ook GPT-4V op alle elementaire UI-taken.

English

Recent advancements in multimodal large language models (MLLMs) have been noteworthy, yet, these general-domain MLLMs often fall short in their ability to comprehend and interact effectively with user interface (UI) screens. In this paper, we present Ferret-UI, a new MLLM tailored for enhanced understanding of mobile UI screens, equipped with referring, grounding, and reasoning capabilities. Given that UI screens typically exhibit a more elongated aspect ratio and contain smaller objects of interest (e.g., icons, texts) than natural images, we incorporate "any resolution" on top of Ferret to magnify details and leverage enhanced visual features. Specifically, each screen is divided into 2 sub-images based on the original aspect ratio (i.e., horizontal division for portrait screens and vertical division for landscape screens). Both sub-images are encoded separately before being sent to LLMs. We meticulously gather training samples from an extensive range of elementary UI tasks, such as icon recognition, find text, and widget listing. These samples are formatted for instruction-following with region annotations to facilitate precise referring and grounding. To augment the model's reasoning ability, we further compile a dataset for advanced tasks, including detailed description, perception/interaction conversations, and function inference. After training on the curated datasets, Ferret-UI exhibits outstanding comprehension of UI screens and the capability to execute open-ended instructions. For model evaluation, we establish a comprehensive benchmark encompassing all the aforementioned tasks. Ferret-UI excels not only beyond most open-source UI MLLMs, but also surpasses GPT-4V on all the elementary UI tasks.

Ferret-UI: Gegrond Begrip van Mobiele UI's met Multimodale LLM's

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Samenvatting

Support