ChatPaper.aiChatPaper

Modelos Fundacionales Multimodales: De Especialistas a Asistentes de Propósito General

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

September 18, 2023
Autores: Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
cs.AI

Resumen

Este artículo presenta una encuesta exhaustiva de la taxonomía y evolución de los modelos fundacionales multimodales que demuestran capacidades de visión y visión-lenguaje, centrándose en la transición de modelos especializados a asistentes de propósito general. El panorama de investigación abarca cinco temas principales, categorizados en dos clases. (i) Comenzamos con una revisión de áreas de investigación bien establecidas: modelos fundacionales multimodales preentrenados para propósitos específicos, incluyendo dos temas — métodos de aprendizaje de backbones de visión para comprensión visual y generación de texto a imagen. (ii) Luego, presentamos avances recientes en áreas de investigación exploratorias y abiertas: modelos fundacionales multimodales que buscan desempeñar el papel de asistentes de propósito general, incluyendo tres temas — modelos de visión unificados inspirados en modelos de lenguaje grandes (LLMs), entrenamiento de extremo a extremo de LLMs multimodales, y encadenamiento de herramientas multimodales con LLMs. El público objetivo de este artículo son investigadores, estudiantes de posgrado y profesionales en las comunidades de visión por computadora y multimodalidad visión-lenguaje que desean aprender los fundamentos y avances recientes en modelos fundacionales multimodales.
English
This paper presents a comprehensive survey of the taxonomy and evolution of multimodal foundation models that demonstrate vision and vision-language capabilities, focusing on the transition from specialist models to general-purpose assistants. The research landscape encompasses five core topics, categorized into two classes. (i) We start with a survey of well-established research areas: multimodal foundation models pre-trained for specific purposes, including two topics -- methods of learning vision backbones for visual understanding and text-to-image generation. (ii) Then, we present recent advances in exploratory, open research areas: multimodal foundation models that aim to play the role of general-purpose assistants, including three topics -- unified vision models inspired by large language models (LLMs), end-to-end training of multimodal LLMs, and chaining multimodal tools with LLMs. The target audiences of the paper are researchers, graduate students, and professionals in computer vision and vision-language multimodal communities who are eager to learn the basics and recent advances in multimodal foundation models.
PDF412December 15, 2024