X-LLM: Inicialização de Modelos Avançados de Linguagem de Grande Escala Tratando Multi-Modalidades como Línguas Estrangeiras

Resumo

Modelos de linguagem de grande escala (LLMs) demonstraram habilidades linguísticas notáveis. O GPT-4, baseado em LLMs avançados, exibe capacidades multimodais extraordinárias que vão além dos modelos visuais de linguagem anteriores. Atribuímos isso ao uso de LLMs mais avançados em comparação com os modelos multimodais anteriores. Infelizmente, a arquitetura do modelo e as estratégias de treinamento do GPT-4 são desconhecidas. Para dotar LLMs com capacidades multimodais, propomos o X-LLM, que converte multimodais (imagens, fala, vídeos) em línguas estrangeiras usando interfaces X2L e os insere em um grande modelo de linguagem (ChatGLM). Especificamente, o X-LLM alinha vários codificadores unimodais congelados e um LLM congelado usando interfaces X2L, onde "X" denota multimodais como imagem, fala e vídeos, e "L" denota línguas. O treinamento do X-LLM consiste em três etapas: (1) Conversão de Informação Multimodal: A primeira etapa treina cada interface X2L para alinhar-se com seu respectivo codificador unimodal separadamente, a fim de converter informações multimodais em línguas. (2) Alinhamento das representações X2L com o LLM: os codificadores unimodais são alinhados com o LLM por meio de interfaces X2L de forma independente. (3) Integração de múltiplas modalidades: todos os codificadores unimodais são alinhados com o LLM por meio de interfaces X2L para integrar capacidades multimodais ao LLM. Nossos experimentos mostram que o X-LLM demonstra impressionantes habilidades de chat multimodal, às vezes exibindo comportamentos do GPT-4 multimodal em imagens/instruções não vistas, e alcança uma pontuação relativa de 84,5% em comparação com o GPT-4 em um conjunto de dados sintético de seguimento de instruções multimodais. Também realizamos testes quantitativos sobre o uso de LLM para ASR e ASR multimodal, na esperança de promover a era do reconhecimento de fala baseado em LLM.

English

Large language models (LLMs) have demonstrated remarkable language abilities. GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities beyond previous visual language models. We attribute this to the use of more advanced LLMs compared with previous multimodal models. Unfortunately, the model architecture and training strategies of GPT-4 are unknown. To endow LLMs with multimodal capabilities, we propose X-LLM, which converts Multi-modalities (images, speech, videos) into foreign languages using X2L interfaces and inputs them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X'' denotes multi-modalities such as image, speech, and videos, and ``L'' denotes languages. X-LLM's training consists of three stages: (1) Converting Multimodal Information: The first stage trains each X2L interface to align with its respective single-modal encoder separately to convert multimodal information into languages. (2) Aligning X2L representations with the LLM: single-modal encoders are aligned with the LLM through X2L interfaces independently. (3) Integrating multiple modalities: all single-modal encoders are aligned with the LLM through X2L interfaces to integrate multimodal capabilities into the LLM. Our experiments show that X-LLM demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 84.5\% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. And we also conduct quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote the era of LLM-based speech recognition.

X-LLM: Inicialização de Modelos Avançados de Linguagem de Grande Escala Tratando Multi-Modalidades como Línguas Estrangeiras

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages

Resumo

Support