Modelos de Fundação Multimodais: De Especialistas a Assistentes de Propósito Geral
Multimodal Foundation Models: From Specialists to General-Purpose Assistants
September 18, 2023
Autores: Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
cs.AI
Resumo
Este artigo apresenta uma pesquisa abrangente sobre a taxonomia e a evolução de modelos de base multimodal que demonstram capacidades visuais e de visão-linguagem, com foco na transição de modelos especializados para assistentes de propósito geral. O panorama da pesquisa abrange cinco tópicos principais, categorizados em duas classes. (i) Começamos com uma revisão de áreas de pesquisa bem estabelecidas: modelos de base multimodal pré-treinados para propósitos específicos, incluindo dois tópicos -- métodos de aprendizagem de backbones visuais para compreensão visual e geração de texto para imagem. (ii) Em seguida, apresentamos avanços recentes em áreas de pesquisa exploratórias e abertas: modelos de base multimodal que visam desempenhar o papel de assistentes de propósito geral, incluindo três tópicos -- modelos visuais unificados inspirados em grandes modelos de linguagem (LLMs), treinamento end-to-end de LLMs multimodais e encadeamento de ferramentas multimodais com LLMs. O público-alvo deste artigo são pesquisadores, estudantes de pós-graduação e profissionais das comunidades de visão computacional e multimodalidade visão-linguagem que desejam aprender os fundamentos e os avanços recentes em modelos de base multimodal.
English
This paper presents a comprehensive survey of the taxonomy and evolution of
multimodal foundation models that demonstrate vision and vision-language
capabilities, focusing on the transition from specialist models to
general-purpose assistants. The research landscape encompasses five core
topics, categorized into two classes. (i) We start with a survey of
well-established research areas: multimodal foundation models pre-trained for
specific purposes, including two topics -- methods of learning vision backbones
for visual understanding and text-to-image generation. (ii) Then, we present
recent advances in exploratory, open research areas: multimodal foundation
models that aim to play the role of general-purpose assistants, including three
topics -- unified vision models inspired by large language models (LLMs),
end-to-end training of multimodal LLMs, and chaining multimodal tools with
LLMs. The target audiences of the paper are researchers, graduate students, and
professionals in computer vision and vision-language multimodal communities who
are eager to learn the basics and recent advances in multimodal foundation
models.