ChatPaper.aiChatPaper

X-LLM : Amorçage de modèles de langage avancés en traitant les multi-modalités comme des langues étrangères

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages

May 7, 2023
Auteurs: Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu
cs.AI

Résumé

Les grands modèles de langage (LLM) ont démontré des capacités linguistiques remarquables. GPT-4, basé sur des LLM avancés, présente des capacités multimodales extraordinaires qui dépassent celles des modèles visuels-langage précédents. Nous attribuons cela à l'utilisation de LLM plus avancés par rapport aux modèles multimodaux antérieurs. Malheureusement, l'architecture du modèle et les stratégies d'entraînement de GPT-4 restent inconnues. Pour doter les LLM de capacités multimodales, nous proposons X-LLM, qui convertit les multimodalities (images, parole, vidéos) en langues étrangères à l'aide d'interfaces X2L et les intègre dans un grand modèle de langage (ChatGLM). Plus précisément, X-LLM aligne plusieurs encodeurs monomodaux figés et un LLM figé à l'aide d'interfaces X2L, où « X » désigne les multimodalities telles que l'image, la parole et les vidéos, et « L » désigne les langues. L'entraînement de X-LLM se déroule en trois étapes : (1) Conversion des informations multimodales : la première étape entraîne chaque interface X2L à s'aligner avec son encodeur monomodal respectif pour convertir les informations multimodales en langues. (2) Alignement des représentations X2L avec le LLM : les encodeurs monomodaux sont alignés avec le LLM via les interfaces X2L de manière indépendante. (3) Intégration des multimodalities : tous les encodeurs monomodaux sont alignés avec le LLM via les interfaces X2L pour intégrer les capacités multimodales dans le LLM. Nos expériences montrent que X-LLM démontre des capacités impressionnantes de dialogue multimodal, reproduisant parfois les comportements de GPT-4 multimodal sur des images/instructions inédites, et obtient un score relatif de 84,5 % par rapport à GPT-4 sur un ensemble de données synthétiques de suivi d'instructions multimodales. Nous avons également effectué des tests quantitatifs sur l'utilisation de LLM pour la reconnaissance automatique de la parole (ASR) et l'ASR multimodal, dans l'espoir de promouvoir l'ère de la reconnaissance vocale basée sur les LLM.
English
Large language models (LLMs) have demonstrated remarkable language abilities. GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities beyond previous visual language models. We attribute this to the use of more advanced LLMs compared with previous multimodal models. Unfortunately, the model architecture and training strategies of GPT-4 are unknown. To endow LLMs with multimodal capabilities, we propose X-LLM, which converts Multi-modalities (images, speech, videos) into foreign languages using X2L interfaces and inputs them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X'' denotes multi-modalities such as image, speech, and videos, and ``L'' denotes languages. X-LLM's training consists of three stages: (1) Converting Multimodal Information: The first stage trains each X2L interface to align with its respective single-modal encoder separately to convert multimodal information into languages. (2) Aligning X2L representations with the LLM: single-modal encoders are aligned with the LLM through X2L interfaces independently. (3) Integrating multiple modalities: all single-modal encoders are aligned with the LLM through X2L interfaces to integrate multimodal capabilities into the LLM. Our experiments show that X-LLM demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 84.5\% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. And we also conduct quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote the era of LLM-based speech recognition.
PDF27December 15, 2024