TEAL: 다중 모달 대형 언어 모델을 위한 토큰화 및 임베딩 통합 접근법
TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models
November 8, 2023
저자: Zhen Yang, Yingxue Zhang, Fandong Meng, Jie Zhou
cs.AI
초록
최근 멀티모달 대형 언어 모델(MM-LLMs)이 놀라운 발전을 이루었음에도 불구하고, 여전히 다중 모달 입력 간의 상호작용과 비텍스트 모달리티에서의 생성을 효율적으로 모델링하는 데 어려움을 겪고 있습니다. 본 연구에서는 모든 모달리티의 입력을 토큰 시퀀스로 처리하고 모든 모달리티를 위한 공통 임베딩 공간을 학습하는 TEAL(Tokenize and Embed ALl) 접근법을 제안합니다. 구체적으로, TEAL은 어떤 모달리티의 입력이든 먼저 기존의 토크나이저를 사용하여 토큰 시퀀스로 이산화한 다음, 학습 가능한 임베딩 행렬을 통해 이 토큰 시퀀스를 공통 임베딩 공간에 임베딩합니다. MM-LLMs는 텍스트 LLMs가 하는 것처럼 멀티모달 토큰을 자동회귀적으로 예측하기만 하면 됩니다. 마지막으로, 예측된 토큰 시퀀스를 기반으로 각 모달리티에서 출력을 생성하기 위해 해당 디토크나이저가 적용됩니다. TEAL은 공통 임베딩 공간을 통해 고정된 LLMs가 이미지 및 오디오와 같은 비텍스트 모달리티를 포함한 이해 및 생성 작업을 수행할 수 있게 합니다. 따라서 텍스트 LLM은 인터페이스 역할만 하면서도 텍스트 이해 및 생성에서의 높은 성능을 유지할 수 있습니다. 실험 결과, TEAL은 멀티모달 이해에서 상당한 개선을 달성했으며, 멀티모달 생성을 위한 간단한 체계를 구현했습니다.
English
Despite Multi-modal Large Language Models (MM-LLMs) have made exciting
strides recently, they are still struggling to efficiently model the
interactions among multi-modal inputs and the generation in non-textual
modalities. In this work, we propose TEAL (Tokenize and Embed ALl)}, an
approach to treat the input from any modality as a token sequence and learn a
joint embedding space for all modalities. Specifically, for the input from any
modality, TEAL first discretizes it into a token sequence with the
off-the-shelf tokenizer and embeds the token sequence into a joint embedding
space with a learnable embedding matrix. MM-LLMs just need to predict the
multi-modal tokens autoregressively as the textual LLMs do. Finally, the
corresponding de-tokenizer is applied to generate the output in each modality
based on the predicted token sequence. With the joint embedding space, TEAL
enables the frozen LLMs to perform both understanding and generation tasks
involving non-textual modalities, such as image and audio. Thus, the textual
LLM can just work as an interface and maintain its high performance in textual
understanding and generation. Experiments show that TEAL achieves substantial
improvements in multi-modal understanding, and implements a simple scheme for
multi-modal generations.