AnyGPT: Modelo de Linguagem Multimodal Unificado com Modelagem de Sequência Discreta
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
February 19, 2024
Autores: Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
cs.AI
Resumo
Apresentamos o AnyGPT, um modelo de linguagem multimodal any-to-any que utiliza representações discretas para o processamento unificado de várias modalidades, incluindo fala, texto, imagens e música. O AnyGPT pode ser treinado de forma estável sem qualquer alteração na arquitetura atual de modelos de linguagem de grande escala (LLM) ou nos paradigmas de treinamento. Em vez disso, ele depende exclusivamente de pré-processamento em nível de dados, facilitando a integração contínua de novas modalidades em LLMs, semelhante à incorporação de novos idiomas. Construímos um conjunto de dados multimodal centrado em texto para pré-treinamento de alinhamento multimodal. Utilizando modelos generativos, sintetizamos o primeiro conjunto de dados de instrução multimodal any-to-any em grande escala. Ele consiste em 108k amostras de conversas multi-turn que entrelaçam intricadamente várias modalidades, equipando assim o modelo para lidar com combinações arbitrárias de entradas e saídas multimodais. Os resultados experimentais demonstram que o AnyGPT é capaz de facilitar conversas multimodais any-to-any enquanto alcança desempenho comparável a modelos especializados em todas as modalidades, provando que representações discretas podem unificar de forma eficaz e conveniente múltiplas modalidades dentro de um modelo de linguagem. Demonstrações estão disponíveis em https://junzhan2000.github.io/AnyGPT.github.io/.
English
We introduce AnyGPT, an any-to-any multimodal language model that utilizes
discrete representations for the unified processing of various modalities,
including speech, text, images, and music. AnyGPT can be trained stably without
any alterations to the current large language model (LLM) architecture or
training paradigms. Instead, it relies exclusively on data-level preprocessing,
facilitating the seamless integration of new modalities into LLMs, akin to the
incorporation of new languages. We build a multimodal text-centric dataset for
multimodal alignment pre-training. Utilizing generative models, we synthesize
the first large-scale any-to-any multimodal instruction dataset. It consists of
108k samples of multi-turn conversations that intricately interweave various
modalities, thus equipping the model to handle arbitrary combinations of
multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is
capable of facilitating any-to-any multimodal conversation while achieving
performance comparable to specialized models across all modalities, proving
that discrete representations can effectively and conveniently unify multiple
modalities within a language model. Demos are shown in
https://junzhan2000.github.io/AnyGPT.github.io/