AnyGPT : Modèle de langage multimodal unifié avec modélisation de séquences discrètes
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
February 19, 2024
Auteurs: Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
cs.AI
Résumé
Nous présentons AnyGPT, un modèle de langage multimodal tout-à-tout qui utilise des représentations discrètes pour le traitement unifié de diverses modalités, incluant la parole, le texte, les images et la musique. AnyGPT peut être entraîné de manière stable sans aucune modification de l'architecture actuelle des grands modèles de langage (LLM) ou des paradigmes d'entraînement. Au lieu de cela, il repose exclusivement sur un prétraitement au niveau des données, facilitant l'intégration transparente de nouvelles modalités dans les LLM, similaire à l'incorporation de nouvelles langues. Nous construisons un ensemble de données multimodal centré sur le texte pour le pré-entraînement à l'alignement multimodal. En utilisant des modèles génératifs, nous synthétisons le premier ensemble de données d'instructions multimodal tout-à-tout à grande échelle. Il se compose de 108k échantillons de conversations multi-tours qui entrelacent de manière complexe diverses modalités, permettant ainsi au modèle de gérer des combinaisons arbitraires d'entrées et de sorties multimodales. Les résultats expérimentaux démontrent qu'AnyGPT est capable de faciliter des conversations multimodales tout-à-tout tout en atteignant des performances comparables à celles des modèles spécialisés dans toutes les modalités, prouvant que les représentations discrètes peuvent unifier efficacement et commodément plusieurs modalités au sein d'un modèle de langage. Les démonstrations sont disponibles sur https://junzhan2000.github.io/AnyGPT.github.io/.
English
We introduce AnyGPT, an any-to-any multimodal language model that utilizes
discrete representations for the unified processing of various modalities,
including speech, text, images, and music. AnyGPT can be trained stably without
any alterations to the current large language model (LLM) architecture or
training paradigms. Instead, it relies exclusively on data-level preprocessing,
facilitating the seamless integration of new modalities into LLMs, akin to the
incorporation of new languages. We build a multimodal text-centric dataset for
multimodal alignment pre-training. Utilizing generative models, we synthesize
the first large-scale any-to-any multimodal instruction dataset. It consists of
108k samples of multi-turn conversations that intricately interweave various
modalities, thus equipping the model to handle arbitrary combinations of
multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is
capable of facilitating any-to-any multimodal conversation while achieving
performance comparable to specialized models across all modalities, proving
that discrete representations can effectively and conveniently unify multiple
modalities within a language model. Demos are shown in
https://junzhan2000.github.io/AnyGPT.github.io/Summary
AI-Generated Summary