ChatPaper.aiChatPaper

Modèles de fondation multimodaux : Des spécialistes aux assistants polyvalents

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

September 18, 2023
Auteurs: Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
cs.AI

Résumé

Cet article présente une étude approfondie de la taxonomie et de l'évolution des modèles de base multimodaux démontrant des capacités visuelles et vision-langage, en se concentrant sur la transition des modèles spécialisés vers des assistants à usage général. Le paysage de la recherche englobe cinq thèmes principaux, classés en deux catégories. (i) Nous commençons par un aperçu des domaines de recherche bien établis : les modèles de base multimodaux pré-entraînés pour des objectifs spécifiques, incluant deux sujets -- les méthodes d'apprentissage des architectures visuelles pour la compréhension visuelle et la génération d'images à partir de texte. (ii) Ensuite, nous présentons les avancées récentes dans des domaines de recherche exploratoires et ouverts : les modèles de base multimodaux visant à jouer le rôle d'assistants à usage général, incluant trois sujets -- les modèles visuels unifiés inspirés par les grands modèles de langage (LLMs), l'entraînement de bout en bout des LLMs multimodaux, et l'enchaînement d'outils multimodaux avec les LLMs. Les publics cibles de cet article sont les chercheurs, les étudiants diplômés et les professionnels des communautés de vision par ordinateur et de multimodalité vision-langage, désireux de découvrir les bases et les avancées récentes dans les modèles de base multimodaux.
English
This paper presents a comprehensive survey of the taxonomy and evolution of multimodal foundation models that demonstrate vision and vision-language capabilities, focusing on the transition from specialist models to general-purpose assistants. The research landscape encompasses five core topics, categorized into two classes. (i) We start with a survey of well-established research areas: multimodal foundation models pre-trained for specific purposes, including two topics -- methods of learning vision backbones for visual understanding and text-to-image generation. (ii) Then, we present recent advances in exploratory, open research areas: multimodal foundation models that aim to play the role of general-purpose assistants, including three topics -- unified vision models inspired by large language models (LLMs), end-to-end training of multimodal LLMs, and chaining multimodal tools with LLMs. The target audiences of the paper are researchers, graduate students, and professionals in computer vision and vision-language multimodal communities who are eager to learn the basics and recent advances in multimodal foundation models.
PDF412December 15, 2024