AnyGPT : Modèle de langage multimodal unifié avec modélisation de séquences discrètes

papers.abstract

Nous présentons AnyGPT, un modèle de langage multimodal tout-à-tout qui utilise des représentations discrètes pour le traitement unifié de diverses modalités, incluant la parole, le texte, les images et la musique. AnyGPT peut être entraîné de manière stable sans aucune modification de l'architecture actuelle des grands modèles de langage (LLM) ou des paradigmes d'entraînement. Au lieu de cela, il repose exclusivement sur un prétraitement au niveau des données, facilitant l'intégration transparente de nouvelles modalités dans les LLM, similaire à l'incorporation de nouvelles langues. Nous construisons un ensemble de données multimodal centré sur le texte pour le pré-entraînement à l'alignement multimodal. En utilisant des modèles génératifs, nous synthétisons le premier ensemble de données d'instructions multimodal tout-à-tout à grande échelle. Il se compose de 108k échantillons de conversations multi-tours qui entrelacent de manière complexe diverses modalités, permettant ainsi au modèle de gérer des combinaisons arbitraires d'entrées et de sorties multimodales. Les résultats expérimentaux démontrent qu'AnyGPT est capable de faciliter des conversations multimodales tout-à-tout tout en atteignant des performances comparables à celles des modèles spécialisés dans toutes les modalités, prouvant que les représentations discrètes peuvent unifier efficacement et commodément plusieurs modalités au sein d'un modèle de langage. Les démonstrations sont disponibles sur https://junzhan2000.github.io/AnyGPT.github.io/.

English

We introduce AnyGPT, an any-to-any multimodal language model that utilizes discrete representations for the unified processing of various modalities, including speech, text, images, and music. AnyGPT can be trained stably without any alterations to the current large language model (LLM) architecture or training paradigms. Instead, it relies exclusively on data-level preprocessing, facilitating the seamless integration of new modalities into LLMs, akin to the incorporation of new languages. We build a multimodal text-centric dataset for multimodal alignment pre-training. Utilizing generative models, we synthesize the first large-scale any-to-any multimodal instruction dataset. It consists of 108k samples of multi-turn conversations that intricately interweave various modalities, thus equipping the model to handle arbitrary combinations of multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is capable of facilitating any-to-any multimodal conversation while achieving performance comparable to specialized models across all modalities, proving that discrete representations can effectively and conveniently unify multiple modalities within a language model. Demos are shown in https://junzhan2000.github.io/AnyGPT.github.io/

AnyGPT : Modèle de langage multimodal unifié avec modélisation de séquences discrètes

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

papers.abstract

Support