Florence-2: Развитие унифицированного представления для широкого спектра задач компьютерного зрения
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
November 10, 2023
Авторы: Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
cs.AI
Аннотация
Мы представляем Florence-2, новую базовую модель для обработки изображений, которая использует унифицированное представление на основе текстовых запросов для решения разнообразных задач компьютерного зрения и взаимодействия изображений с текстом. В то время как существующие крупные модели обработки изображений демонстрируют высокие результаты в трансферном обучении, они испытывают трудности с выполнением множества задач на основе простых инструкций, что требует способности справляться со сложностью различных пространственных иерархий и семантической гранулярности. Florence-2 была разработана для принятия текстовых запросов в качестве инструкций и генерации желаемых результатов в текстовой форме, будь то создание подписей, обнаружение объектов, локализация или сегментация. Такая настройка многозадачного обучения требует масштабных и качественных аннотированных данных. Для этого мы совместно разработали FLD-5B, который включает 5,4 миллиарда всеобъемлющих визуальных аннотаций для 126 миллионов изображений, используя итеративную стратегию автоматической аннотации изображений и уточнения модели. Мы применили структуру "последовательность-последовательность" для обучения Florence-2 выполнению универсальных и комплексных задач обработки изображений. Многочисленные оценки на различных задачах показали, что Florence-2 является сильным претендентом на роль базовой модели для обработки изображений, обладающей беспрецедентными возможностями в условиях нулевого обучения и тонкой настройки.
English
We introduce Florence-2, a novel vision foundation model with a unified,
prompt-based representation for a variety of computer vision and
vision-language tasks. While existing large vision models excel in transfer
learning, they struggle to perform a diversity of tasks with simple
instructions, a capability that implies handling the complexity of various
spatial hierarchy and semantic granularity. Florence-2 was designed to take
text-prompt as task instructions and generate desirable results in text forms,
whether it be captioning, object detection, grounding or segmentation. This
multi-task learning setup demands large-scale, high-quality annotated data. To
this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive
visual annotations on 126 million images, using an iterative strategy of
automated image annotation and model refinement. We adopted a
sequence-to-sequence structure to train Florence-2 to perform versatile and
comprehensive vision tasks. Extensive evaluations on numerous tasks
demonstrated Florence-2 to be a strong vision foundation model contender with
unprecedented zero-shot and fine-tuning capabilities.