Мультимодальные базовые модели: от специализированных к универсальным помощникам
Multimodal Foundation Models: From Specialists to General-Purpose Assistants
September 18, 2023
Авторы: Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
cs.AI
Аннотация
В данной статье представлен всесторонний обзор таксономии и эволюции мультимодальных базовых моделей, демонстрирующих возможности в области зрения и обработки визуально-текстовой информации, с акцентом на переход от специализированных моделей к универсальным ассистентам. Исследовательский ландшафт охватывает пять ключевых тем, разделенных на два класса. (i) Мы начинаем с обзора устоявшихся областей исследований: мультимодальных базовых моделей, предварительно обученных для конкретных задач, включая две темы — методы обучения визуальных архитектур для понимания изображений и генерации изображений по текстовым описаниям. (ii) Затем мы рассматриваем последние достижения в новых, открытых исследовательских направлениях: мультимодальных базовых моделях, которые стремятся выполнять роль универсальных ассистентов, включая три темы — унифицированные модели зрения, вдохновленные большими языковыми моделями (LLM), сквозное обучение мультимодальных LLM и объединение мультимодальных инструментов с LLM. Целевая аудитория статьи — исследователи, аспиранты и специалисты в сообществах компьютерного зрения и мультимодальной обработки визуально-текстовой информации, которые стремятся изучить основы и последние достижения в области мультимодальных базовых моделей.
English
This paper presents a comprehensive survey of the taxonomy and evolution of
multimodal foundation models that demonstrate vision and vision-language
capabilities, focusing on the transition from specialist models to
general-purpose assistants. The research landscape encompasses five core
topics, categorized into two classes. (i) We start with a survey of
well-established research areas: multimodal foundation models pre-trained for
specific purposes, including two topics -- methods of learning vision backbones
for visual understanding and text-to-image generation. (ii) Then, we present
recent advances in exploratory, open research areas: multimodal foundation
models that aim to play the role of general-purpose assistants, including three
topics -- unified vision models inspired by large language models (LLMs),
end-to-end training of multimodal LLMs, and chaining multimodal tools with
LLMs. The target audiences of the paper are researchers, graduate students, and
professionals in computer vision and vision-language multimodal communities who
are eager to learn the basics and recent advances in multimodal foundation
models.