Multimodale Foundation Models: Von Spezialisten zu universellen Assistenten
Multimodal Foundation Models: From Specialists to General-Purpose Assistants
September 18, 2023
Autoren: Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
cs.AI
Zusammenfassung
Dieses Papier präsentiert eine umfassende Übersicht über die Taxonomie und Entwicklung von multimodalen Foundation-Modellen, die visuelle und visuell-sprachliche Fähigkeiten demonstrieren, mit einem Fokus auf den Übergang von spezialisierten Modellen zu allgemeinen Assistenzsystemen. Die Forschungslandschaft umfasst fünf Kernthemen, die in zwei Klassen unterteilt sind. (i) Wir beginnen mit einer Übersicht über etablierte Forschungsbereiche: multimodale Foundation-Modelle, die für spezifische Zwecke vortrainiert wurden, einschließlich zweier Themen – Methoden zum Erlernen von visuellen Backbones für das visuelle Verständnis und die Text-zu-Bild-Generierung. (ii) Anschließend präsentieren wir aktuelle Fortschritte in explorativen, offenen Forschungsbereichen: multimodale Foundation-Modelle, die die Rolle von allgemeinen Assistenzsystemen anstreben, einschließlich dreier Themen – vereinheitlichte visuelle Modelle, die von großen Sprachmodellen (LLMs) inspiriert sind, End-to-End-Training von multimodalen LLMs und die Verkettung von multimodalen Werkzeugen mit LLMs. Die Zielgruppen des Papiers sind Forscher, Doktoranden und Fachleute in den Bereichen Computer Vision und visuell-sprachliche multimodale Systeme, die die Grundlagen und aktuellen Fortschritte in multimodalen Foundation-Modellen erlernen möchten.
English
This paper presents a comprehensive survey of the taxonomy and evolution of
multimodal foundation models that demonstrate vision and vision-language
capabilities, focusing on the transition from specialist models to
general-purpose assistants. The research landscape encompasses five core
topics, categorized into two classes. (i) We start with a survey of
well-established research areas: multimodal foundation models pre-trained for
specific purposes, including two topics -- methods of learning vision backbones
for visual understanding and text-to-image generation. (ii) Then, we present
recent advances in exploratory, open research areas: multimodal foundation
models that aim to play the role of general-purpose assistants, including three
topics -- unified vision models inspired by large language models (LLMs),
end-to-end training of multimodal LLMs, and chaining multimodal tools with
LLMs. The target audiences of the paper are researchers, graduate students, and
professionals in computer vision and vision-language multimodal communities who
are eager to learn the basics and recent advances in multimodal foundation
models.