Florence-2: Avanzando hacia una representación unificada para una variedad de tareas de visión

Resumen

Presentamos Florence-2, un modelo de visión base novedoso con una representación unificada basada en instrucciones para una variedad de tareas de visión por computadora y visión-lenguaje. Si bien los modelos de visión grandes existentes sobresalen en el aprendizaje por transferencia, tienen dificultades para realizar una diversidad de tareas con instrucciones simples, una capacidad que implica manejar la complejidad de varias jerarquías espaciales y granularidades semánticas. Florence-2 fue diseñado para tomar instrucciones de tareas en forma de texto y generar resultados deseables en formato textual, ya sea subtitulación, detección de objetos, localización o segmentación. Esta configuración de aprendizaje multitarea requiere datos anotados a gran escala y de alta calidad. Con este fin, co-desarrollamos FLD-5B, que consta de 5.4 mil millones de anotaciones visuales completas en 126 millones de imágenes, utilizando una estrategia iterativa de anotación automática de imágenes y refinamiento del modelo. Adoptamos una estructura secuencia-a-secuencia para entrenar a Florence-2 y que realice tareas de visión versátiles y completas. Evaluaciones extensas en numerosas tareas demostraron que Florence-2 es un fuerte contendiente como modelo de visión base, con capacidades sin precedentes en zero-shot y fine-tuning.

English

We introduce Florence-2, a novel vision foundation model with a unified, prompt-based representation for a variety of computer vision and vision-language tasks. While existing large vision models excel in transfer learning, they struggle to perform a diversity of tasks with simple instructions, a capability that implies handling the complexity of various spatial hierarchy and semantic granularity. Florence-2 was designed to take text-prompt as task instructions and generate desirable results in text forms, whether it be captioning, object detection, grounding or segmentation. This multi-task learning setup demands large-scale, high-quality annotated data. To this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive visual annotations on 126 million images, using an iterative strategy of automated image annotation and model refinement. We adopted a sequence-to-sequence structure to train Florence-2 to perform versatile and comprehensive vision tasks. Extensive evaluations on numerous tasks demonstrated Florence-2 to be a strong vision foundation model contender with unprecedented zero-shot and fine-tuning capabilities.

Florence-2: Avanzando hacia una representación unificada para una variedad de tareas de visión

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

Resumen

Support