Modelli Fondamentali Multimodali: Da Specialisti ad Assistenti Generali

Abstract

Questo articolo presenta una rassegna completa della tassonomia e dell'evoluzione dei modelli fondazionali multimodali che dimostrano capacità visive e di visione-linguaggio, concentrandosi sulla transizione da modelli specializzati ad assistenti generici. Il panorama della ricerca comprende cinque temi principali, suddivisi in due classi. (i) Iniziamo con una rassegna delle aree di ricerca consolidate: modelli fondazionali multimodali pre-addestrati per scopi specifici, includendo due temi -- metodi di apprendimento di backbone visivi per la comprensione visiva e la generazione di immagini da testo. (ii) Successivamente, presentiamo i recenti progressi nelle aree di ricerca esplorative e aperte: modelli fondazionali multimodali che mirano a svolgere il ruolo di assistenti generici, includendo tre temi -- modelli visivi unificati ispirati dai grandi modelli linguistici (LLM), addestramento end-to-end di LLM multimodali e concatenazione di strumenti multimodali con LLM. Il pubblico target dell'articolo è composto da ricercatori, studenti laureati e professionisti nelle comunità di visione artificiale e multimodali visione-linguaggio che desiderano apprendere le basi e i recenti progressi nei modelli fondazionali multimodali.

English

This paper presents a comprehensive survey of the taxonomy and evolution of multimodal foundation models that demonstrate vision and vision-language capabilities, focusing on the transition from specialist models to general-purpose assistants. The research landscape encompasses five core topics, categorized into two classes. (i) We start with a survey of well-established research areas: multimodal foundation models pre-trained for specific purposes, including two topics -- methods of learning vision backbones for visual understanding and text-to-image generation. (ii) Then, we present recent advances in exploratory, open research areas: multimodal foundation models that aim to play the role of general-purpose assistants, including three topics -- unified vision models inspired by large language models (LLMs), end-to-end training of multimodal LLMs, and chaining multimodal tools with LLMs. The target audiences of the paper are researchers, graduate students, and professionals in computer vision and vision-language multimodal communities who are eager to learn the basics and recent advances in multimodal foundation models.

Modelli Fondamentali Multimodali: Da Specialisti ad Assistenti Generali

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

Abstract

Support