ChatPaper.aiChatPaper

AnyGPT: 이산 시퀀스 모델링을 통한 통합 멀티모달 LLM

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

February 19, 2024
저자: Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
cs.AI

초록

본 논문에서는 음성, 텍스트, 이미지, 음악 등 다양한 모달리티를 통합 처리하기 위해 이산적 표현을 활용하는 Any-to-Any 다중모달 언어 모델인 AnyGPT를 소개한다. AnyGPT는 현재의 대규모 언어 모델(LLM) 아키텍처나 훈련 패러다임을 변경하지 않고도 안정적으로 훈련될 수 있다. 대신, 데이터 수준의 전처리에 전적으로 의존함으로써 새로운 모달리티를 LLM에 원활하게 통합할 수 있으며, 이는 새로운 언어를 통합하는 것과 유사하다. 우리는 다중모달 정렬 사전 훈련을 위한 텍스트 중심의 다중모달 데이터셋을 구축하였다. 또한 생성 모델을 활용하여, 다양한 모달리티가 복잡하게 얽힌 다중 턴 대화로 구성된 108k 샘플의 대규모 Any-to-Any 다중모달 명령어 데이터셋을 최초로 합성하였다. 이를 통해 모델은 임의의 다중모달 입력과 출력 조합을 처리할 수 있게 되었다. 실험 결과, AnyGPT는 모든 모달리티에서 특화된 모델과 비슷한 성능을 달성하면서도 Any-to-Any 다중모달 대화를 가능하게 함으로써, 이산적 표현이 언어 모델 내에서 여러 모달리티를 효과적이고 편리하게 통합할 수 있음을 입증하였다. 데모는 https://junzhan2000.github.io/AnyGPT.github.io/에서 확인할 수 있다.
English
We introduce AnyGPT, an any-to-any multimodal language model that utilizes discrete representations for the unified processing of various modalities, including speech, text, images, and music. AnyGPT can be trained stably without any alterations to the current large language model (LLM) architecture or training paradigms. Instead, it relies exclusively on data-level preprocessing, facilitating the seamless integration of new modalities into LLMs, akin to the incorporation of new languages. We build a multimodal text-centric dataset for multimodal alignment pre-training. Utilizing generative models, we synthesize the first large-scale any-to-any multimodal instruction dataset. It consists of 108k samples of multi-turn conversations that intricately interweave various modalities, thus equipping the model to handle arbitrary combinations of multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is capable of facilitating any-to-any multimodal conversation while achieving performance comparable to specialized models across all modalities, proving that discrete representations can effectively and conveniently unify multiple modalities within a language model. Demos are shown in https://junzhan2000.github.io/AnyGPT.github.io/

Summary

AI-Generated Summary

PDF458December 15, 2024