NExT-GPT : Modèle de langage multimodal tout-à-tout

papers.abstract

Alors que les modèles de langage multimodaux de grande taille (MM-LLMs) ont récemment réalisé des avancées prometteuses, ils restent majoritairement limités à une compréhension multimodale en entrée, sans capacité à produire du contenu dans plusieurs modalités. Puisque nous, humains, percevons toujours le monde et communiquons avec les autres à travers diverses modalités, le développement de MM-LLMs capables d'accepter et de délivrer du contenu dans n'importe quelle modalité devient essentiel pour atteindre une IA de niveau humain. Pour combler cette lacune, nous présentons NExT-GPT, un système MM-LLM polyvalent et de bout en bout, capable de traiter n'importe quelle modalité. Nous connectons un modèle de langage à des adaptateurs multimodaux et à différents décodeurs de diffusion, permettant à NExT-GPT de percevoir les entrées et de générer des sorties dans des combinaisons arbitraires de texte, d'images, de vidéos et d'audio. En exploitant des encodeurs et décodeurs existants déjà bien entraînés et performants, NExT-GPT est ajusté avec seulement une petite quantité de paramètres (1 %) dans certaines couches de projection, ce qui non seulement favorise un entraînement à faible coût, mais facilite également une expansion pratique vers davantage de modalités potentielles. De plus, nous introduisons un réglage par instruction de commutation de modalité (MosIT) et constituons manuellement un ensemble de données de haute qualité pour MosIT, sur la base duquel NExT-GPT est doté d'une compréhension sémantique intermodale complexe et d'une génération de contenu. Globalement, notre recherche démontre la possibilité prometteuse de construire un agent IA capable de modéliser des modalités universelles, ouvrant la voie à des recherches en IA plus proches de l'humain dans la communauté.

English

While recently Multimodal Large Language Models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce content in multiple modalities. As we humans always perceive the world and communicate with people through various modalities, developing any-to-any MM-LLMs capable of accepting and delivering content in any modality becomes essential to human-level AI. To fill the gap, we present an end-to-end general-purpose any-to-any MM-LLM system, NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion decoders, enabling NExT-GPT to perceive inputs and generate outputs in arbitrary combinations of text, images, videos, and audio. By leveraging the existing well-trained highly-performing encoders and decoders, NExT-GPT is tuned with only a small amount of parameter (1%) of certain projection layers, which not only benefits low-cost training and also facilitates convenient expansion to more potential modalities. Moreover, we introduce a modality-switching instruction tuning (MosIT) and manually curate a high-quality dataset for MosIT, based on which NExT-GPT is empowered with complex cross-modal semantic understanding and content generation. Overall, our research showcases the promising possibility of building an AI agent capable of modeling universal modalities, paving the way for more human-like AI research in the community.

NExT-GPT : Modèle de langage multimodal tout-à-tout

NExT-GPT: Any-to-Any Multimodal LLM

papers.abstract

Support