Florence-2 : Vers une représentation unifiée pour une variété de tâches en vision par ordinateur
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
November 10, 2023
Auteurs: Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
cs.AI
Résumé
Nous présentons Florence-2, un nouveau modèle de base visuel doté d’une représentation unifiée basée sur des prompts pour une variété de tâches en vision par ordinateur et en vision-langage. Alors que les grands modèles visuels existants excellent dans l’apprentissage par transfert, ils peinent à réaliser une diversité de tâches avec des instructions simples, une capacité qui implique de gérer la complexité de diverses hiérarchies spatiales et granularités sémantiques. Florence-2 a été conçu pour prendre un texte-prompt comme instruction de tâche et générer des résultats souhaitables sous forme textuelle, qu’il s’agisse de légendage, de détection d’objets, de localisation ou de segmentation. Cette configuration d’apprentissage multi-tâches nécessite des données annotées à grande échelle et de haute qualité. À cette fin, nous avons co-développé FLD-5B, qui comprend 5,4 milliards d’annotations visuelles complètes sur 126 millions d’images, en utilisant une stratégie itérative d’annotation automatique d’images et de raffinement du modèle. Nous avons adopté une structure séquence-à-séquence pour entraîner Florence-2 à effectuer des tâches visuelles polyvalentes et complètes. Des évaluations approfondies sur de nombreuses tâches ont démontré que Florence-2 est un concurrent sérieux en tant que modèle de base visuel, doté de capacités inédites en zero-shot et en fine-tuning.
English
We introduce Florence-2, a novel vision foundation model with a unified,
prompt-based representation for a variety of computer vision and
vision-language tasks. While existing large vision models excel in transfer
learning, they struggle to perform a diversity of tasks with simple
instructions, a capability that implies handling the complexity of various
spatial hierarchy and semantic granularity. Florence-2 was designed to take
text-prompt as task instructions and generate desirable results in text forms,
whether it be captioning, object detection, grounding or segmentation. This
multi-task learning setup demands large-scale, high-quality annotated data. To
this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive
visual annotations on 126 million images, using an iterative strategy of
automated image annotation and model refinement. We adopted a
sequence-to-sequence structure to train Florence-2 to perform versatile and
comprehensive vision tasks. Extensive evaluations on numerous tasks
demonstrated Florence-2 to be a strong vision foundation model contender with
unprecedented zero-shot and fine-tuning capabilities.