NExT-GPT: Modelo de Linguagem Multimodal Any-to-Any
NExT-GPT: Any-to-Any Multimodal LLM
September 11, 2023
Autores: Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
cs.AI
Resumo
Embora os Modelos de Linguagem Multimodais de Grande Escala (MM-LLMs) tenham feito avanços empolgantes recentemente, eles ainda sofrem com a limitação de compreender apenas entradas multimodais, sem a capacidade de gerar conteúdo em múltiplas modalidades. Como nós, humanos, sempre percebemos o mundo e nos comunicamos por meio de várias modalidades, o desenvolvimento de MM-LLMs capazes de aceitar e entregar conteúdo em qualquer modalidade torna-se essencial para alcançar uma IA de nível humano. Para preencher essa lacuna, apresentamos o NExT-GPT, um sistema MM-LLM de propósito geral e de ponta a ponta, capaz de lidar com qualquer modalidade. Conectamos um LLM a adaptadores multimodais e diferentes decodificadores de difusão, permitindo que o NExT-GPT perceba entradas e gere saídas em combinações arbitrárias de texto, imagens, vídeos e áudio. Ao aproveitar codificadores e decodificadores já bem treinados e de alto desempenho, o NExT-GPT é ajustado com apenas uma pequena quantidade de parâmetros (1%) em certas camadas de projeção, o que não apenas beneficia o treinamento de baixo custo, mas também facilita a expansão conveniente para mais modalidades potenciais. Além disso, introduzimos um ajuste de instrução de troca de modalidade (MosIT) e curamos manualmente um conjunto de dados de alta qualidade para o MosIT, com base no qual o NExT-GPT é capacitado com compreensão semântica cruzada complexa e geração de conteúdo. No geral, nossa pesquisa demonstra a possibilidade promissora de construir um agente de IA capaz de modelar modalidades universais, abrindo caminho para pesquisas de IA mais humanas na comunidade.
English
While recently Multimodal Large Language Models (MM-LLMs) have made exciting
strides, they mostly fall prey to the limitation of only input-side multimodal
understanding, without the ability to produce content in multiple modalities.
As we humans always perceive the world and communicate with people through
various modalities, developing any-to-any MM-LLMs capable of accepting and
delivering content in any modality becomes essential to human-level AI. To fill
the gap, we present an end-to-end general-purpose any-to-any MM-LLM system,
NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion
decoders, enabling NExT-GPT to perceive inputs and generate outputs in
arbitrary combinations of text, images, videos, and audio. By leveraging the
existing well-trained highly-performing encoders and decoders, NExT-GPT is
tuned with only a small amount of parameter (1%) of certain projection layers,
which not only benefits low-cost training and also facilitates convenient
expansion to more potential modalities. Moreover, we introduce a
modality-switching instruction tuning (MosIT) and manually curate a
high-quality dataset for MosIT, based on which NExT-GPT is empowered with
complex cross-modal semantic understanding and content generation. Overall, our
research showcases the promising possibility of building an AI agent capable of
modeling universal modalities, paving the way for more human-like AI research
in the community.