ChatPaper.aiChatPaper

Multimodale Fundamentele Modellen: Van Specialisten naar Algemene Assistenten

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

September 18, 2023
Auteurs: Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
cs.AI

Samenvatting

Dit artikel presenteert een uitgebreid overzicht van de taxonomie en evolutie van multimodale foundation-modellen die visuele en visueel-taalkundige capaciteiten demonstreren, met een focus op de overgang van gespecialiseerde modellen naar algemene assistenten. Het onderzoekslandschap omvat vijf kernonderwerpen, ingedeeld in twee categorieën. (i) We beginnen met een overzicht van goed gevestigde onderzoeksgebieden: multimodale foundation-modellen die vooraf zijn getraind voor specifieke doeleinden, inclusief twee onderwerpen -- methoden voor het leren van visuele backbones voor visueel begrip en tekst-naar-beeldgeneratie. (ii) Vervolgens presenteren we recente ontwikkelingen in verkennende, open onderzoeksgebieden: multimodale foundation-modellen die de rol van algemene assistenten beogen te vervullen, inclusief drie onderwerpen -- geünificeerde visuele modellen geïnspireerd door grote taalmmodellen (LLMs), end-to-end training van multimodale LLMs, en het koppelen van multimodale tools met LLMs. Het beoogde publiek van het artikel bestaat uit onderzoekers, promovendi en professionals in de computer vision en visueel-taalkundige multimodale gemeenschappen die geïnteresseerd zijn in de basisprincipes en recente ontwikkelingen in multimodale foundation-modellen.
English
This paper presents a comprehensive survey of the taxonomy and evolution of multimodal foundation models that demonstrate vision and vision-language capabilities, focusing on the transition from specialist models to general-purpose assistants. The research landscape encompasses five core topics, categorized into two classes. (i) We start with a survey of well-established research areas: multimodal foundation models pre-trained for specific purposes, including two topics -- methods of learning vision backbones for visual understanding and text-to-image generation. (ii) Then, we present recent advances in exploratory, open research areas: multimodal foundation models that aim to play the role of general-purpose assistants, including three topics -- unified vision models inspired by large language models (LLMs), end-to-end training of multimodal LLMs, and chaining multimodal tools with LLMs. The target audiences of the paper are researchers, graduate students, and professionals in computer vision and vision-language multimodal communities who are eager to learn the basics and recent advances in multimodal foundation models.
PDF402February 8, 2026