X-LLM: Potenciando Modelos de Lenguaje Avanzados Tratando las Multi-Modalidades como Lenguas Extranjeras
X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages
May 7, 2023
Autores: Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado habilidades lingüísticas notables. GPT-4, basado en LLMs avanzados, exhibe capacidades multimodales extraordinarias que superan a los modelos visuales de lenguaje anteriores. Atribuimos esto al uso de LLMs más avanzados en comparación con los modelos multimodales previos. Desafortunadamente, la arquitectura del modelo y las estrategias de entrenamiento de GPT-4 son desconocidas. Para dotar a los LLMs de capacidades multimodales, proponemos X-LLM, que convierte múltiples modalidades (imágenes, audio, videos) en lenguajes extranjeros utilizando interfaces X2L y los introduce en un modelo de lenguaje de gran escala (ChatGLM). Específicamente, X-LLM alinea múltiples codificadores unimodales congelados y un LLM congelado mediante interfaces X2L, donde "X" denota modalidades múltiples como imágenes, audio y videos, y "L" denota lenguajes. El entrenamiento de X-LLM consta de tres etapas: (1) Conversión de información multimodal: la primera etapa entrena cada interfaz X2L para alinearse con su respectivo codificador unimodal por separado, con el fin de convertir la información multimodal en lenguajes. (2) Alineación de representaciones X2L con el LLM: los codificadores unimodales se alinean con el LLM a través de interfaces X2L de manera independiente. (3) Integración de múltiples modalidades: todos los codificadores unimodales se alinean con el LLM mediante interfaces X2L para integrar capacidades multimodales en el LLM. Nuestros experimentos muestran que X-LLM demuestra impresionantes habilidades de chat multimodal, exhibiendo en ocasiones comportamientos similares a los de GPT-4 multimodal en imágenes/instrucciones no vistas, y alcanza un puntaje relativo del 84.5% en comparación con GPT-4 en un conjunto de datos sintético de seguimiento de instrucciones multimodales. También realizamos pruebas cuantitativas sobre el uso de LLM para reconocimiento automático de voz (ASR) y ASR multimodal, con la esperanza de impulsar la era del reconocimiento de voz basado en LLM.
English
Large language models (LLMs) have demonstrated remarkable language abilities.
GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities
beyond previous visual language models. We attribute this to the use of more
advanced LLMs compared with previous multimodal models. Unfortunately, the
model architecture and training strategies of GPT-4 are unknown. To endow LLMs
with multimodal capabilities, we propose X-LLM, which converts Multi-modalities
(images, speech, videos) into foreign languages using X2L interfaces and inputs
them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple
frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X''
denotes multi-modalities such as image, speech, and videos, and ``L'' denotes
languages. X-LLM's training consists of three stages: (1) Converting Multimodal
Information: The first stage trains each X2L interface to align with its
respective single-modal encoder separately to convert multimodal information
into languages. (2) Aligning X2L representations with the LLM: single-modal
encoders are aligned with the LLM through X2L interfaces independently. (3)
Integrating multiple modalities: all single-modal encoders are aligned with the
LLM through X2L interfaces to integrate multimodal capabilities into the LLM.
Our experiments show that X-LLM demonstrates impressive multimodel chat
abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen
images/instructions, and yields a 84.5\% relative score compared with GPT-4 on
a synthetic multimodal instruction-following dataset. And we also conduct
quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote
the era of LLM-based speech recognition.