NExT-GPT: Any-to-Any Multimodale LLM
NExT-GPT: Any-to-Any Multimodal LLM
September 11, 2023
Auteurs: Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
cs.AI
Samenvatting
Hoewel Multimodale Grote Taalmodellen (MM-LLMs) recentelijk spannende vooruitgang hebben geboekt, vallen ze meestal ten prooi aan de beperking van alleen input-zijde multimodale begrip, zonder de mogelijkheid om inhoud in meerdere modaliteiten te produceren. Aangezien wij mensen de wereld altijd waarnemen en communiceren met anderen via verschillende modaliteiten, wordt het ontwikkelen van any-to-any MM-LLMs die inhoud in elke modaliteit kunnen accepteren en leveren essentieel voor AI op menselijk niveau. Om deze kloof te dichten, presenteren we een end-to-end algemeen toepasbaar any-to-any MM-LLM-systeem, NExT-GPT. We verbinden een LLM met multimodale adapters en verschillende diffusiedecoders, waardoor NExT-GPT inputs kan waarnemen en outputs kan genereren in willekeurige combinaties van tekst, afbeeldingen, video's en audio. Door gebruik te maken van bestaande goed getrainde en hoogpresterende encoders en decoders, wordt NExT-GPT afgestemd met slechts een kleine hoeveelheid parameters (1%) van bepaalde projectielagen, wat niet alleen voordelig is voor kosteneffectieve training, maar ook een gemakkelijke uitbreiding naar meer potentiële modaliteiten mogelijk maakt. Bovendien introduceren we een modaliteit-switching instructie-afstemming (MosIT) en stellen handmatig een hoogwaardige dataset samen voor MosIT, waarop NExT-GPT wordt uitgerust met complexe cross-modale semantische begrip en inhoudsgeneratie. Over het geheel genomen toont ons onderzoek de veelbelovende mogelijkheid van het bouwen van een AI-agent die universele modaliteiten kan modelleren, wat de weg vrijmaakt voor meer mensachtig AI-onderzoek in de gemeenschap.
English
While recently Multimodal Large Language Models (MM-LLMs) have made exciting
strides, they mostly fall prey to the limitation of only input-side multimodal
understanding, without the ability to produce content in multiple modalities.
As we humans always perceive the world and communicate with people through
various modalities, developing any-to-any MM-LLMs capable of accepting and
delivering content in any modality becomes essential to human-level AI. To fill
the gap, we present an end-to-end general-purpose any-to-any MM-LLM system,
NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion
decoders, enabling NExT-GPT to perceive inputs and generate outputs in
arbitrary combinations of text, images, videos, and audio. By leveraging the
existing well-trained highly-performing encoders and decoders, NExT-GPT is
tuned with only a small amount of parameter (1%) of certain projection layers,
which not only benefits low-cost training and also facilitates convenient
expansion to more potential modalities. Moreover, we introduce a
modality-switching instruction tuning (MosIT) and manually curate a
high-quality dataset for MosIT, based on which NExT-GPT is empowered with
complex cross-modal semantic understanding and content generation. Overall, our
research showcases the promising possibility of building an AI agent capable of
modeling universal modalities, paving the way for more human-like AI research
in the community.