Modelli Fondamentali Multimodali: Da Specialisti ad Assistenti Generali
Multimodal Foundation Models: From Specialists to General-Purpose Assistants
September 18, 2023
Autori: Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
cs.AI
Abstract
Questo articolo presenta una rassegna completa della tassonomia e dell'evoluzione dei modelli fondazionali multimodali che dimostrano capacità visive e di visione-linguaggio, concentrandosi sulla transizione da modelli specializzati ad assistenti generici. Il panorama della ricerca comprende cinque temi principali, suddivisi in due classi. (i) Iniziamo con una rassegna delle aree di ricerca consolidate: modelli fondazionali multimodali pre-addestrati per scopi specifici, includendo due temi -- metodi di apprendimento di backbone visivi per la comprensione visiva e la generazione di immagini da testo. (ii) Successivamente, presentiamo i recenti progressi nelle aree di ricerca esplorative e aperte: modelli fondazionali multimodali che mirano a svolgere il ruolo di assistenti generici, includendo tre temi -- modelli visivi unificati ispirati dai grandi modelli linguistici (LLM), addestramento end-to-end di LLM multimodali e concatenazione di strumenti multimodali con LLM. Il pubblico target dell'articolo è composto da ricercatori, studenti laureati e professionisti nelle comunità di visione artificiale e multimodali visione-linguaggio che desiderano apprendere le basi e i recenti progressi nei modelli fondazionali multimodali.
English
This paper presents a comprehensive survey of the taxonomy and evolution of
multimodal foundation models that demonstrate vision and vision-language
capabilities, focusing on the transition from specialist models to
general-purpose assistants. The research landscape encompasses five core
topics, categorized into two classes. (i) We start with a survey of
well-established research areas: multimodal foundation models pre-trained for
specific purposes, including two topics -- methods of learning vision backbones
for visual understanding and text-to-image generation. (ii) Then, we present
recent advances in exploratory, open research areas: multimodal foundation
models that aim to play the role of general-purpose assistants, including three
topics -- unified vision models inspired by large language models (LLMs),
end-to-end training of multimodal LLMs, and chaining multimodal tools with
LLMs. The target audiences of the paper are researchers, graduate students, and
professionals in computer vision and vision-language multimodal communities who
are eager to learn the basics and recent advances in multimodal foundation
models.