Florence-2: Fortschritt in einer einheitlichen Darstellung für eine Vielzahl von Vision-Aufgaben
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
November 10, 2023
Autoren: Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
cs.AI
Zusammenfassung
Wir stellen Florence-2 vor, ein neuartiges Vision-Foundation-Modell mit einer einheitlichen, prompt-basierten Repräsentation für eine Vielzahl von Computer-Vision- und Vision-Language-Aufgaben. Während bestehende große Vision-Modelle im Transferlernen hervorragend abschneiden, haben sie Schwierigkeiten, eine Vielzahl von Aufgaben mit einfachen Anweisungen auszuführen – eine Fähigkeit, die den Umgang mit der Komplexität verschiedener räumlicher Hierarchien und semantischer Granularität voraussetzt. Florence-2 wurde entwickelt, um Text-Prompts als Aufgabenanweisungen zu verwenden und gewünschte Ergebnisse in Textform zu generieren, sei es Bildbeschreibung, Objekterkennung, Grounding oder Segmentierung. Dieses Multi-Task-Learning-Setup erfordert groß angelegte, hochwertig annotierte Daten. Zu diesem Zweck haben wir FLD-5B mitentwickelt, das 5,4 Milliarden umfassende visuelle Annotationen auf 126 Millionen Bildern umfasst, wobei eine iterative Strategie der automatisierten Bildannotation und Modellverfeinerung verwendet wurde. Wir haben eine Sequenz-zu-Sequenz-Struktur übernommen, um Florence-2 für vielseitige und umfassende Vision-Aufgaben zu trainieren. Umfangreiche Evaluierungen auf zahlreichen Aufgaben zeigten, dass Florence-2 ein starker Kandidat für ein Vision-Foundation-Modell mit beispiellosen Zero-Shot- und Fine-Tuning-Fähigkeiten ist.
English
We introduce Florence-2, a novel vision foundation model with a unified,
prompt-based representation for a variety of computer vision and
vision-language tasks. While existing large vision models excel in transfer
learning, they struggle to perform a diversity of tasks with simple
instructions, a capability that implies handling the complexity of various
spatial hierarchy and semantic granularity. Florence-2 was designed to take
text-prompt as task instructions and generate desirable results in text forms,
whether it be captioning, object detection, grounding or segmentation. This
multi-task learning setup demands large-scale, high-quality annotated data. To
this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive
visual annotations on 126 million images, using an iterative strategy of
automated image annotation and model refinement. We adopted a
sequence-to-sequence structure to train Florence-2 to perform versatile and
comprehensive vision tasks. Extensive evaluations on numerous tasks
demonstrated Florence-2 to be a strong vision foundation model contender with
unprecedented zero-shot and fine-tuning capabilities.