ChatPaper.aiChatPaper

Macaw-LLM: Modelado de Lenguaje Multimodal con Integración de Imágenes, Audio, Video y Texto

Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration

June 15, 2023
Autores: Chenyang Lyu, Minghao Wu, Longyue Wang, Xinting Huang, Bingshuai Liu, Zefeng Du, Shuming Shi, Zhaopeng Tu
cs.AI

Resumen

Aunque los grandes modelos de lenguaje (LLMs) ajustados mediante instrucciones han demostrado capacidades notables en diversas tareas de PLN, su efectividad en otras modalidades de datos más allá del texto no ha sido completamente estudiada. En este trabajo, proponemos Macaw-LLM, un novedoso LLM multimodal que integra de manera fluida información visual, auditiva y textual. Macaw-LLM consta de tres componentes principales: un módulo de modalidad para codificar datos multimodales, un módulo cognitivo para aprovechar LLMs preentrenados y un módulo de alineación para armonizar representaciones diversas. Nuestro innovador módulo de alineación conecta de manera fluida las características multimodales con las características textuales, simplificando el proceso de adaptación desde los módulos de modalidad al módulo cognitivo. Además, construimos un conjunto de datos de instrucciones multimodal a gran escala en términos de diálogos multiturno, que incluye 69K instancias de imágenes y 50K instancias de videos. Hemos puesto a disposición pública nuestros datos, código y modelo, con la esperanza de que puedan allanar el camino para futuras investigaciones en LLMs multimodales y expandir las capacidades de los LLMs para manejar diversas modalidades de datos y abordar escenarios complejos del mundo real.
English
Although instruction-tuned large language models (LLMs) have exhibited remarkable capabilities across various NLP tasks, their effectiveness on other data modalities beyond text has not been fully studied. In this work, we propose Macaw-LLM, a novel multi-modal LLM that seamlessly integrates visual, audio, and textual information. Macaw-LLM consists of three main components: a modality module for encoding multi-modal data, a cognitive module for harnessing pretrained LLMs, and an alignment module for harmonizing diverse representations. Our novel alignment module seamlessly bridges multi-modal features to textual features, simplifying the adaptation process from the modality modules to the cognitive module. In addition, we construct a large-scale multi-modal instruction dataset in terms of multi-turn dialogue, including 69K image instances and 50K video instances. We have made our data, code and model publicly available, which we hope can pave the way for future research in multi-modal LLMs and expand the capabilities of LLMs to handle diverse data modalities and address complex real-world scenarios.
PDF154December 15, 2024