Ferret-UI: Comprensión Fundamentada de Interfaces de Usuario Móviles con LLMs MultimodalesFerret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs) han sido destacables; sin embargo, estos MLLMs de dominio general a menudo carecen de la capacidad para comprender e interactuar de manera efectiva con las pantallas de interfaz de usuario (UI). En este artículo, presentamos Ferret-UI, un nuevo MLLM diseñado para mejorar la comprensión de las pantallas de UI móviles, equipado con capacidades de referencia, anclaje y razonamiento. Dado que las pantallas de UI suelen exhibir una relación de aspecto más alargada y contener objetos de interés más pequeños (por ejemplo, iconos, textos) que las imágenes naturales, incorporamos una resolución "cualquiera" en Ferret para ampliar los detalles y aprovechar características visuales mejoradas. Específicamente, cada pantalla se divide en 2 subimágenes basadas en la relación de aspecto original (es decir, división horizontal para pantallas en modo retrato y división vertical para pantallas en modo apaisado). Ambas subimágenes se codifican por separado antes de ser enviadas a los LLMs. Reunimos meticulosamente muestras de entrenamiento de una amplia gama de tareas básicas de UI, como reconocimiento de iconos, búsqueda de texto y listado de widgets. Estas muestras se formatean para seguir instrucciones con anotaciones de región para facilitar la referencia y el anclaje precisos. Para aumentar la capacidad de razonamiento del modelo, compilamos además un conjunto de datos para tareas avanzadas, que incluyen descripción detallada, conversaciones de percepción/interacción e inferencia de funciones. Después del entrenamiento en los conjuntos de datos seleccionados, Ferret-UI exhibe una comprensión sobresaliente de las pantallas de UI y la capacidad de ejecutar instrucciones de formato abierto. Para la evaluación del modelo, establecemos un punto de referencia integral que abarca todas las tareas mencionadas anteriormente. Ferret-UI no solo supera a la mayoría de los MLLMs de UI de código abierto, sino que también supera a GPT-4V en todas las tareas básicas de UI.