Florence-2: Progresso verso una rappresentazione unificata per una varietà di compiti visivi
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
November 10, 2023
Autori: Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
cs.AI
Abstract
Presentiamo Florence-2, un innovativo modello di base per la visione con una rappresentazione unificata basata su prompt per una varietà di task di computer vision e visione-linguaggio. Mentre i modelli di visione di grandi dimensioni esistenti eccellono nel transfer learning, faticano a eseguire una diversità di task con semplici istruzioni, una capacità che implica la gestione della complessità di varie gerarchie spaziali e granularità semantiche. Florence-2 è stato progettato per accettare prompt testuali come istruzioni per i task e generare risultati desiderabili in forma testuale, che si tratti di captioning, rilevamento di oggetti, grounding o segmentazione. Questa configurazione di apprendimento multi-task richiede dati annotati su larga scala e di alta qualità. A tal fine, abbiamo co-sviluppato FLD-5B, che consiste in 5,4 miliardi di annotazioni visive complete su 126 milioni di immagini, utilizzando una strategia iterativa di annotazione automatica delle immagini e affinamento del modello. Abbiamo adottato una struttura sequenza-a-sequenza per addestrare Florence-2 a eseguire task di visione versatili e completi. Valutazioni estensive su numerosi task hanno dimostrato che Florence-2 è un forte contendente come modello di base per la visione, con capacità senza precedenti in termini di zero-shot e fine-tuning.
English
We introduce Florence-2, a novel vision foundation model with a unified,
prompt-based representation for a variety of computer vision and
vision-language tasks. While existing large vision models excel in transfer
learning, they struggle to perform a diversity of tasks with simple
instructions, a capability that implies handling the complexity of various
spatial hierarchy and semantic granularity. Florence-2 was designed to take
text-prompt as task instructions and generate desirable results in text forms,
whether it be captioning, object detection, grounding or segmentation. This
multi-task learning setup demands large-scale, high-quality annotated data. To
this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive
visual annotations on 126 million images, using an iterative strategy of
automated image annotation and model refinement. We adopted a
sequence-to-sequence structure to train Florence-2 to perform versatile and
comprehensive vision tasks. Extensive evaluations on numerous tasks
demonstrated Florence-2 to be a strong vision foundation model contender with
unprecedented zero-shot and fine-tuning capabilities.