AnyGPT: Modello Linguistico Multimodale Unificato con Modellizzazione di Sequenze Discrete
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
February 19, 2024
Autori: Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
cs.AI
Abstract
Presentiamo AnyGPT, un modello linguistico multimodale any-to-any che utilizza rappresentazioni discrete per l'elaborazione unificata di varie modalità, tra cui voce, testo, immagini e musica. AnyGPT può essere addestrato in modo stabile senza alcuna modifica all'architettura attuale dei grandi modelli linguistici (LLM) o ai paradigmi di addestramento. Invece, si affida esclusivamente alla pre-elaborazione a livello di dati, facilitando l'integrazione senza soluzione di continuità di nuove modalità negli LLM, simile all'incorporazione di nuove lingue. Costruiamo un dataset multimodale incentrato sul testo per il pre-addestramento dell'allineamento multimodale. Utilizzando modelli generativi, sintetizziamo il primo dataset di istruzioni multimodali any-to-any su larga scala. Esso consiste di 108k campioni di conversazioni multi-turn che intrecciano in modo complesso varie modalità, dotando così il modello di capacità di gestire combinazioni arbitrarie di input e output multimodali. I risultati sperimentali dimostrano che AnyGPT è in grado di facilitare conversazioni multimodali any-to-any, raggiungendo prestazioni comparabili a modelli specializzati in tutte le modalità, dimostrando che le rappresentazioni discrete possono unificare efficacemente e convenientemente più modalità all'interno di un modello linguistico. Le demo sono disponibili su https://junzhan2000.github.io/AnyGPT.github.io/.
English
We introduce AnyGPT, an any-to-any multimodal language model that utilizes
discrete representations for the unified processing of various modalities,
including speech, text, images, and music. AnyGPT can be trained stably without
any alterations to the current large language model (LLM) architecture or
training paradigms. Instead, it relies exclusively on data-level preprocessing,
facilitating the seamless integration of new modalities into LLMs, akin to the
incorporation of new languages. We build a multimodal text-centric dataset for
multimodal alignment pre-training. Utilizing generative models, we synthesize
the first large-scale any-to-any multimodal instruction dataset. It consists of
108k samples of multi-turn conversations that intricately interweave various
modalities, thus equipping the model to handle arbitrary combinations of
multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is
capable of facilitating any-to-any multimodal conversation while achieving
performance comparable to specialized models across all modalities, proving
that discrete representations can effectively and conveniently unify multiple
modalities within a language model. Demos are shown in
https://junzhan2000.github.io/AnyGPT.github.io/