X-LLM: 다중 모달리티를 외국어로 취급하여 고급 대형 언어 모델 부트스트래핑하기
X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages
May 7, 2023
저자: Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu
cs.AI
초록
대형 언어 모델(LLM)은 놀라운 언어 능력을 보여주고 있다. GPT-4는 고급 LLM을 기반으로 이전의 시각 언어 모델을 넘어서는 탁월한 다중 모달 능력을 보여준다. 우리는 이러한 능력이 이전의 다중 모달 모델과 비교하여 더 고급 LLM을 사용한 결과라고 판단한다. 그러나 GPT-4의 모델 아키텍처와 훈련 전략은 알려져 있지 않다. LLM에 다중 모달 능력을 부여하기 위해, 우리는 X-LLM을 제안한다. X-LLM은 X2L 인터페이스를 사용하여 이미지, 음성, 비디오와 같은 다중 모달리티를 외국어로 변환하고 이를 대형 언어 모델(ChatGLM)에 입력한다. 구체적으로, X-LLM은 여러 고정된 단일 모달 인코더와 고정된 LLM을 X2L 인터페이스를 사용하여 정렬한다. 여기서 "X"는 이미지, 음성, 비디오와 같은 다중 모달리티를 나타내고, "L"은 언어를 나타낸다. X-LLM의 훈련은 세 단계로 구성된다: (1) 다중 모달 정보 변환: 첫 번째 단계에서는 각 X2L 인터페이스를 해당 단일 모달 인코더와 별도로 정렬하여 다중 모달 정보를 언어로 변환한다. (2) X2L 표현과 LLM 정렬: 단일 모달 인코더는 X2L 인터페이스를 통해 LLM과 독립적으로 정렬된다. (3) 다중 모달리티 통합: 모든 단일 모달 인코더는 X2L 인터페이스를 통해 LLM과 정렬되어 다중 모달 능력을 LLM에 통합한다. 우리의 실험 결과, X-LLM은 인상적인 다중 모달 채팅 능력을 보여주며, 때로는 보지 못한 이미지/지시에 대해 다중 모달 GPT-4의 행동을 보여주기도 한다. 또한 합성 다중 모달 지시 따르기 데이터셋에서 GPT-4 대비 84.5%의 상대 점수를 기록했다. 또한 우리는 LLM을 사용한 ASR 및 다중 모달 ASR에 대한 정량적 테스트를 수행하여 LLM 기반 음성 인식 시대를 촉진하고자 한다.
English
Large language models (LLMs) have demonstrated remarkable language abilities.
GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities
beyond previous visual language models. We attribute this to the use of more
advanced LLMs compared with previous multimodal models. Unfortunately, the
model architecture and training strategies of GPT-4 are unknown. To endow LLMs
with multimodal capabilities, we propose X-LLM, which converts Multi-modalities
(images, speech, videos) into foreign languages using X2L interfaces and inputs
them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple
frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X''
denotes multi-modalities such as image, speech, and videos, and ``L'' denotes
languages. X-LLM's training consists of three stages: (1) Converting Multimodal
Information: The first stage trains each X2L interface to align with its
respective single-modal encoder separately to convert multimodal information
into languages. (2) Aligning X2L representations with the LLM: single-modal
encoders are aligned with the LLM through X2L interfaces independently. (3)
Integrating multiple modalities: all single-modal encoders are aligned with the
LLM through X2L interfaces to integrate multimodal capabilities into the LLM.
Our experiments show that X-LLM demonstrates impressive multimodel chat
abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen
images/instructions, and yields a 84.5\% relative score compared with GPT-4 on
a synthetic multimodal instruction-following dataset. And we also conduct
quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote
the era of LLM-based speech recognition.