NExT-GPT : Modèle de langage multimodal tout-à-tout
NExT-GPT: Any-to-Any Multimodal LLM
September 11, 2023
Auteurs: Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
cs.AI
Résumé
Alors que les modèles de langage multimodaux de grande taille (MM-LLMs) ont récemment réalisé des avancées prometteuses, ils restent majoritairement limités à une compréhension multimodale en entrée, sans capacité à produire du contenu dans plusieurs modalités. Puisque nous, humains, percevons toujours le monde et communiquons avec les autres à travers diverses modalités, le développement de MM-LLMs capables d'accepter et de délivrer du contenu dans n'importe quelle modalité devient essentiel pour atteindre une IA de niveau humain. Pour combler cette lacune, nous présentons NExT-GPT, un système MM-LLM polyvalent et de bout en bout, capable de traiter n'importe quelle modalité. Nous connectons un modèle de langage à des adaptateurs multimodaux et à différents décodeurs de diffusion, permettant à NExT-GPT de percevoir les entrées et de générer des sorties dans des combinaisons arbitraires de texte, d'images, de vidéos et d'audio. En exploitant des encodeurs et décodeurs existants déjà bien entraînés et performants, NExT-GPT est ajusté avec seulement une petite quantité de paramètres (1 %) dans certaines couches de projection, ce qui non seulement favorise un entraînement à faible coût, mais facilite également une expansion pratique vers davantage de modalités potentielles. De plus, nous introduisons un réglage par instruction de commutation de modalité (MosIT) et constituons manuellement un ensemble de données de haute qualité pour MosIT, sur la base duquel NExT-GPT est doté d'une compréhension sémantique intermodale complexe et d'une génération de contenu. Globalement, notre recherche démontre la possibilité prometteuse de construire un agent IA capable de modéliser des modalités universelles, ouvrant la voie à des recherches en IA plus proches de l'humain dans la communauté.
English
While recently Multimodal Large Language Models (MM-LLMs) have made exciting
strides, they mostly fall prey to the limitation of only input-side multimodal
understanding, without the ability to produce content in multiple modalities.
As we humans always perceive the world and communicate with people through
various modalities, developing any-to-any MM-LLMs capable of accepting and
delivering content in any modality becomes essential to human-level AI. To fill
the gap, we present an end-to-end general-purpose any-to-any MM-LLM system,
NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion
decoders, enabling NExT-GPT to perceive inputs and generate outputs in
arbitrary combinations of text, images, videos, and audio. By leveraging the
existing well-trained highly-performing encoders and decoders, NExT-GPT is
tuned with only a small amount of parameter (1%) of certain projection layers,
which not only benefits low-cost training and also facilitates convenient
expansion to more potential modalities. Moreover, we introduce a
modality-switching instruction tuning (MosIT) and manually curate a
high-quality dataset for MosIT, based on which NExT-GPT is empowered with
complex cross-modal semantic understanding and content generation. Overall, our
research showcases the promising possibility of building an AI agent capable of
modeling universal modalities, paving the way for more human-like AI research
in the community.