ChatPaper.aiChatPaper

X-LLM: Fortgeschrittene große Sprachmodelle durch die Behandlung von Multimodalitäten als Fremdsprachen bootstrappen

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages

May 7, 2023
Autoren: Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Sprachfähigkeiten demonstriert. GPT-4, basierend auf fortschrittlichen LLMs, zeigt außergewöhnliche multimodale Fähigkeiten, die über bisherige visuelle Sprachmodelle hinausgehen. Wir führen dies auf die Verwendung fortschrittlicherer LLMs im Vergleich zu früheren multimodalen Modellen zurück. Leider sind die Modellarchitektur und Trainingsstrategien von GPT-4 unbekannt. Um LLMs mit multimodalen Fähigkeiten auszustatten, schlagen wir X-LLM vor, das Multimodalitäten (Bilder, Sprache, Videos) mithilfe von X2L-Schnittstellen in Fremdsprachen umwandelt und sie in ein großes Sprachmodell (ChatGLM) einspeist. Konkret richtet X-LLM mehrere eingefrorene Einzelmodalitäts-Encoder und einen eingefrorenen LLM mithilfe von X2L-Schnittstellen aus, wobei „X“ Multimodalitäten wie Bilder, Sprache und Videos bezeichnet und „L“ Sprachen. Das Training von X-LLM besteht aus drei Phasen: (1) Umwandlung multimodaler Informationen: In der ersten Phase wird jede X2L-Schnittstelle separat trainiert, um sich mit ihrem jeweiligen Einzelmodalitäts-Encoder auszurichten und multimodale Informationen in Sprachen umzuwandeln. (2) Ausrichtung der X2L-Repräsentationen mit dem LLM: Einzelmodalitäts-Encoder werden unabhängig über X2L-Schnittstellen mit dem LLM ausgerichtet. (3) Integration mehrerer Modalitäten: Alle Einzelmodalitäts-Encoder werden über X2L-Schnittstellen mit dem LLM ausgerichtet, um multimodale Fähigkeiten in den LLM zu integrieren. Unsere Experimente zeigen, dass X-LLM beeindruckende multimodale Chat-Fähigkeiten aufweist, manchmal das Verhalten des multimodalen GPT-4 bei unbekannten Bildern/Anweisungen zeigt, und im Vergleich zu GPT-4 auf einem synthetischen multimodalen Anweisungsfolge-Datensatz eine relative Punktzahl von 84,5 % erzielt. Wir führen auch quantitative Tests zur Verwendung von LLM für ASR und multimodale ASR durch, in der Hoffnung, das Zeitalter der LLM-basierten Spracherkennung voranzutreiben.
English
Large language models (LLMs) have demonstrated remarkable language abilities. GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities beyond previous visual language models. We attribute this to the use of more advanced LLMs compared with previous multimodal models. Unfortunately, the model architecture and training strategies of GPT-4 are unknown. To endow LLMs with multimodal capabilities, we propose X-LLM, which converts Multi-modalities (images, speech, videos) into foreign languages using X2L interfaces and inputs them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X'' denotes multi-modalities such as image, speech, and videos, and ``L'' denotes languages. X-LLM's training consists of three stages: (1) Converting Multimodal Information: The first stage trains each X2L interface to align with its respective single-modal encoder separately to convert multimodal information into languages. (2) Aligning X2L representations with the LLM: single-modal encoders are aligned with the LLM through X2L interfaces independently. (3) Integrating multiple modalities: all single-modal encoders are aligned with the LLM through X2L interfaces to integrate multimodal capabilities into the LLM. Our experiments show that X-LLM demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 84.5\% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. And we also conduct quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote the era of LLM-based speech recognition.
PDF27December 15, 2024