Ferret-UI: Основанное на земле понимание мобильного пользовательского интерфейса с мультимодальными LLM.Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
Недавние достижения в области мультимодальных больших языковых моделей (MLLM) были значительными, однако эти общедоступные MLLM часто не справляются с задачей полноценного понимания и эффективного взаимодействия с пользовательскими интерфейсами (UI). В данной статье мы представляем Ferret-UI, новую MLLM, специально разработанную для улучшенного понимания мобильных пользовательских интерфейсов, оснащенную возможностями ссылочной связи и обоснования, а также рассуждений. Учитывая, что пользовательские интерфейсы обычно имеют более вытянутое соотношение сторон и содержат меньшие объекты интереса (например, иконки, тексты) по сравнению с естественными изображениями, мы добавляем "любое разрешение" поверх Ferret для увеличения деталей и использования улучшенных визуальных характеристик. Конкретно, каждый экран делится на 2 подизображения на основе исходного соотношения сторон (горизонтальное деление для портретных экранов и вертикальное деление для альбомных экранов). Оба подизображения кодируются отдельно перед отправкой в LLM. Мы тщательно собираем обучающие выборки из широкого спектра элементарных задач пользовательского интерфейса, таких как распознавание иконок, поиск текста и перечисление виджетов. Эти выборки форматируются для последовательного выполнения инструкций с помощью аннотаций областей для облегчения точной ссылки и обоснования. Для улучшения способности модели к рассуждениям мы также составляем набор данных для продвинутых задач, включая подробное описание, беседы о восприятии/взаимодействии и вывод функций. После обучения на отобранных наборах данных Ferret-UI проявляет выдающееся понимание пользовательских интерфейсов и способность выполнять инструкции с открытым окончанием. Для оценки модели мы устанавливаем обширный бенчмарк, охватывающий все упомянутые задачи. Ferret-UI превосходит большинство общедоступных UI MLLM не только в элементарных задачах пользовательского интерфейса, но и превосходит GPT-4V во всех элементарных задачах пользовательского интерфейса.