Modèles de fondation multimodaux : Des spécialistes aux assistants polyvalents
Multimodal Foundation Models: From Specialists to General-Purpose Assistants
September 18, 2023
Auteurs: Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
cs.AI
Résumé
Cet article présente une étude approfondie de la taxonomie et de l'évolution des modèles de base multimodaux démontrant des capacités visuelles et vision-langage, en se concentrant sur la transition des modèles spécialisés vers des assistants à usage général. Le paysage de la recherche englobe cinq thèmes principaux, classés en deux catégories. (i) Nous commençons par un aperçu des domaines de recherche bien établis : les modèles de base multimodaux pré-entraînés pour des objectifs spécifiques, incluant deux sujets -- les méthodes d'apprentissage des architectures visuelles pour la compréhension visuelle et la génération d'images à partir de texte. (ii) Ensuite, nous présentons les avancées récentes dans des domaines de recherche exploratoires et ouverts : les modèles de base multimodaux visant à jouer le rôle d'assistants à usage général, incluant trois sujets -- les modèles visuels unifiés inspirés par les grands modèles de langage (LLMs), l'entraînement de bout en bout des LLMs multimodaux, et l'enchaînement d'outils multimodaux avec les LLMs. Les publics cibles de cet article sont les chercheurs, les étudiants diplômés et les professionnels des communautés de vision par ordinateur et de multimodalité vision-langage, désireux de découvrir les bases et les avancées récentes dans les modèles de base multimodaux.
English
This paper presents a comprehensive survey of the taxonomy and evolution of
multimodal foundation models that demonstrate vision and vision-language
capabilities, focusing on the transition from specialist models to
general-purpose assistants. The research landscape encompasses five core
topics, categorized into two classes. (i) We start with a survey of
well-established research areas: multimodal foundation models pre-trained for
specific purposes, including two topics -- methods of learning vision backbones
for visual understanding and text-to-image generation. (ii) Then, we present
recent advances in exploratory, open research areas: multimodal foundation
models that aim to play the role of general-purpose assistants, including three
topics -- unified vision models inspired by large language models (LLMs),
end-to-end training of multimodal LLMs, and chaining multimodal tools with
LLMs. The target audiences of the paper are researchers, graduate students, and
professionals in computer vision and vision-language multimodal communities who
are eager to learn the basics and recent advances in multimodal foundation
models.