Florence-2: Vooruitgang in een Uniforme Representatie voor een Verscheidenheid aan Visuele Taken
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
November 10, 2023
Auteurs: Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
cs.AI
Samenvatting
We introduceren Florence-2, een nieuw visueel basis model met een uniforme, prompt-gebaseerde representatie voor een verscheidenheid aan computervisie- en visie-taal taken. Hoewel bestaande grote visuele modellen uitblinken in transfer learning, hebben ze moeite om een diversiteit aan taken uit te voeren met eenvoudige instructies, een vaardigheid die het omgaan met de complexiteit van verschillende ruimtelijke hiërarchieën en semantische granulariteit impliceert. Florence-2 is ontworpen om tekstprompts als taakinstructies te nemen en gewenste resultaten in tekstvorm te genereren, of het nu gaat om bijschriften, objectdetectie, grounding of segmentatie. Deze multi-task learning opzet vereist grootschalige, hoogwaardige geannoteerde data. Hiertoe hebben we gezamenlijk FLD-5B ontwikkeld, dat bestaat uit 5,4 miljard uitgebreide visuele annotaties op 126 miljoen afbeeldingen, met behulp van een iteratieve strategie van geautomatiseerde beeldannotatie en modelverfijning. We hebben een sequence-to-sequence structuur geadopteerd om Florence-2 te trainen om veelzijdige en uitgebreide visuele taken uit te voeren. Uitgebreide evaluaties op talrijke taken toonden aan dat Florence-2 een sterke kandidaat is als visueel basis model met ongekende zero-shot en fine-tuning mogelijkheden.
English
We introduce Florence-2, a novel vision foundation model with a unified,
prompt-based representation for a variety of computer vision and
vision-language tasks. While existing large vision models excel in transfer
learning, they struggle to perform a diversity of tasks with simple
instructions, a capability that implies handling the complexity of various
spatial hierarchy and semantic granularity. Florence-2 was designed to take
text-prompt as task instructions and generate desirable results in text forms,
whether it be captioning, object detection, grounding or segmentation. This
multi-task learning setup demands large-scale, high-quality annotated data. To
this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive
visual annotations on 126 million images, using an iterative strategy of
automated image annotation and model refinement. We adopted a
sequence-to-sequence structure to train Florence-2 to perform versatile and
comprehensive vision tasks. Extensive evaluations on numerous tasks
demonstrated Florence-2 to be a strong vision foundation model contender with
unprecedented zero-shot and fine-tuning capabilities.