NExT-GPT: Modello Linguistico Multimodale Any-to-Any
NExT-GPT: Any-to-Any Multimodal LLM
September 11, 2023
Autori: Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
cs.AI
Abstract
Sebbene i recenti Modelli Linguistici Multimodali di Grande Scala (MM-LLMs) abbiano compiuto progressi entusiasmanti, sono per lo più limitati alla comprensione multimodale solo in input, senza la capacità di produrre contenuti in più modalità. Poiché noi esseri umani percepiamo il mondo e comunichiamo con gli altri attraverso varie modalità, lo sviluppo di MM-LLMs any-to-any in grado di accettare e fornire contenuti in qualsiasi modalità diventa essenziale per raggiungere un livello di intelligenza artificiale paragonabile a quello umano. Per colmare questa lacuna, presentiamo NExT-GPT, un sistema MM-LLM any-to-any generico end-to-end. Colleghiamo un LLM con adattatori multimodali e diversi decoder di diffusione, consentendo a NExT-GPT di percepire input e generare output in combinazioni arbitrarie di testo, immagini, video e audio. Sfruttando encoder e decoder esistenti altamente performanti e ben addestrati, NExT-GPT viene ottimizzato utilizzando solo una piccola quantità di parametri (1%) di determinati strati di proiezione, il che non solo favorisce un addestramento a basso costo, ma facilita anche l'espansione conveniente a ulteriori modalità potenziali. Inoltre, introduciamo una tecnica di ottimizzazione tramite istruzioni di commutazione di modalità (MosIT) e curiamo manualmente un dataset di alta qualità per MosIT, sulla base del quale NExT-GPT è potenziato con una comprensione semantica cross-modale complessa e la generazione di contenuti. Nel complesso, la nostra ricerca dimostra la promettente possibilità di costruire un agente AI in grado di modellare modalità universali, aprendo la strada a una ricerca AI più simile a quella umana nella comunità.
English
While recently Multimodal Large Language Models (MM-LLMs) have made exciting
strides, they mostly fall prey to the limitation of only input-side multimodal
understanding, without the ability to produce content in multiple modalities.
As we humans always perceive the world and communicate with people through
various modalities, developing any-to-any MM-LLMs capable of accepting and
delivering content in any modality becomes essential to human-level AI. To fill
the gap, we present an end-to-end general-purpose any-to-any MM-LLM system,
NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion
decoders, enabling NExT-GPT to perceive inputs and generate outputs in
arbitrary combinations of text, images, videos, and audio. By leveraging the
existing well-trained highly-performing encoders and decoders, NExT-GPT is
tuned with only a small amount of parameter (1%) of certain projection layers,
which not only benefits low-cost training and also facilitates convenient
expansion to more potential modalities. Moreover, we introduce a
modality-switching instruction tuning (MosIT) and manually curate a
high-quality dataset for MosIT, based on which NExT-GPT is empowered with
complex cross-modal semantic understanding and content generation. Overall, our
research showcases the promising possibility of building an AI agent capable of
modeling universal modalities, paving the way for more human-like AI research
in the community.