Florence-2: Avançando em uma Representação Unificada para uma Variedade de Tarefas Visuais
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
November 10, 2023
Autores: Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
cs.AI
Resumo
Apresentamos o Florence-2, um novo modelo de base visual com uma representação unificada baseada em prompts para uma variedade de tarefas de visão computacional e visão-linguagem. Embora os grandes modelos visuais existentes se destaquem no aprendizado por transferência, eles têm dificuldade em realizar uma diversidade de tarefas com instruções simples, uma capacidade que implica lidar com a complexidade de várias hierarquias espaciais e granularidades semânticas. O Florence-2 foi projetado para receber prompts de texto como instruções de tarefa e gerar resultados desejáveis em forma de texto, seja em legendagem, detecção de objetos, localização ou segmentação. Essa configuração de aprendizado multitarefa exige dados anotados em grande escala e de alta qualidade. Para isso, co-desenvolvemos o FLD-5B, que consiste em 5,4 bilhões de anotações visuais abrangentes em 126 milhões de imagens, utilizando uma estratégia iterativa de anotação automática de imagens e refinamento do modelo. Adotamos uma estrutura de sequência para sequência para treinar o Florence-2 a realizar tarefas visuais versáteis e abrangentes. Avaliações extensas em diversas tarefas demonstraram que o Florence-2 é um forte candidato a modelo de base visual, com capacidades inéditas de zero-shot e ajuste fino.
English
We introduce Florence-2, a novel vision foundation model with a unified,
prompt-based representation for a variety of computer vision and
vision-language tasks. While existing large vision models excel in transfer
learning, they struggle to perform a diversity of tasks with simple
instructions, a capability that implies handling the complexity of various
spatial hierarchy and semantic granularity. Florence-2 was designed to take
text-prompt as task instructions and generate desirable results in text forms,
whether it be captioning, object detection, grounding or segmentation. This
multi-task learning setup demands large-scale, high-quality annotated data. To
this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive
visual annotations on 126 million images, using an iterative strategy of
automated image annotation and model refinement. We adopted a
sequence-to-sequence structure to train Florence-2 to perform versatile and
comprehensive vision tasks. Extensive evaluations on numerous tasks
demonstrated Florence-2 to be a strong vision foundation model contender with
unprecedented zero-shot and fine-tuning capabilities.