Florence-2: Avanzando hacia una representación unificada para una variedad de tareas de visión
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
November 10, 2023
Autores: Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
cs.AI
Resumen
Presentamos Florence-2, un modelo de visión base novedoso con una representación unificada basada en instrucciones para una variedad de tareas de visión por computadora y visión-lenguaje. Si bien los modelos de visión grandes existentes sobresalen en el aprendizaje por transferencia, tienen dificultades para realizar una diversidad de tareas con instrucciones simples, una capacidad que implica manejar la complejidad de varias jerarquías espaciales y granularidades semánticas. Florence-2 fue diseñado para tomar instrucciones de tareas en forma de texto y generar resultados deseables en formato textual, ya sea subtitulación, detección de objetos, localización o segmentación. Esta configuración de aprendizaje multitarea requiere datos anotados a gran escala y de alta calidad. Con este fin, co-desarrollamos FLD-5B, que consta de 5.4 mil millones de anotaciones visuales completas en 126 millones de imágenes, utilizando una estrategia iterativa de anotación automática de imágenes y refinamiento del modelo. Adoptamos una estructura secuencia-a-secuencia para entrenar a Florence-2 y que realice tareas de visión versátiles y completas. Evaluaciones extensas en numerosas tareas demostraron que Florence-2 es un fuerte contendiente como modelo de visión base, con capacidades sin precedentes en zero-shot y fine-tuning.
English
We introduce Florence-2, a novel vision foundation model with a unified,
prompt-based representation for a variety of computer vision and
vision-language tasks. While existing large vision models excel in transfer
learning, they struggle to perform a diversity of tasks with simple
instructions, a capability that implies handling the complexity of various
spatial hierarchy and semantic granularity. Florence-2 was designed to take
text-prompt as task instructions and generate desirable results in text forms,
whether it be captioning, object detection, grounding or segmentation. This
multi-task learning setup demands large-scale, high-quality annotated data. To
this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive
visual annotations on 126 million images, using an iterative strategy of
automated image annotation and model refinement. We adopted a
sequence-to-sequence structure to train Florence-2 to perform versatile and
comprehensive vision tasks. Extensive evaluations on numerous tasks
demonstrated Florence-2 to be a strong vision foundation model contender with
unprecedented zero-shot and fine-tuning capabilities.