NExT-GPT: Modelo de Lenguaje Multimodal de Cualquier a Cualquier
NExT-GPT: Any-to-Any Multimodal LLM
September 11, 2023
Autores: Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
cs.AI
Resumen
Si bien recientemente los Modelos de Lenguaje Multimodales de Gran Escala (MM-LLMs, por sus siglas en inglés) han logrado avances emocionantes, en su mayoría caen en la limitación de comprender solo la entrada multimodal, sin la capacidad de generar contenido en múltiples modalidades. Dado que los humanos siempre percibimos el mundo y nos comunicamos a través de diversas modalidades, desarrollar MM-LLMs de cualquier-a-cualquier modalidad, capaces de aceptar y entregar contenido en cualquier modalidad, se vuelve esencial para alcanzar una IA de nivel humano. Para llenar este vacío, presentamos NExT-GPT, un sistema MM-LLM de propósito general y de extremo a extremo que funciona en cualquier-a-cualquier modalidad. Conectamos un LLM con adaptadores multimodales y diferentes decodificadores de difusión, lo que permite a NExT-GPT percibir entradas y generar salidas en combinaciones arbitrarias de texto, imágenes, videos y audio. Al aprovechar codificadores y decodificadores existentes altamente eficientes y bien entrenados, NExT-GPT se ajusta con solo una pequeña cantidad de parámetros (1%) en ciertas capas de proyección, lo que no solo beneficia un entrenamiento de bajo costo, sino que también facilita una expansión conveniente a más modalidades potenciales. Además, introducimos un ajuste por instrucciones de cambio de modalidad (MosIT) y seleccionamos manualmente un conjunto de datos de alta calidad para MosIT, en base al cual NExT-GPT se potencia con una comprensión semántica compleja entre modalidades y la generación de contenido. En general, nuestra investigación muestra la posibilidad prometedora de construir un agente de IA capaz de modelar modalidades universales, allanando el camino para una investigación en IA más similar a la humana en la comunidad.
English
While recently Multimodal Large Language Models (MM-LLMs) have made exciting
strides, they mostly fall prey to the limitation of only input-side multimodal
understanding, without the ability to produce content in multiple modalities.
As we humans always perceive the world and communicate with people through
various modalities, developing any-to-any MM-LLMs capable of accepting and
delivering content in any modality becomes essential to human-level AI. To fill
the gap, we present an end-to-end general-purpose any-to-any MM-LLM system,
NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion
decoders, enabling NExT-GPT to perceive inputs and generate outputs in
arbitrary combinations of text, images, videos, and audio. By leveraging the
existing well-trained highly-performing encoders and decoders, NExT-GPT is
tuned with only a small amount of parameter (1%) of certain projection layers,
which not only benefits low-cost training and also facilitates convenient
expansion to more potential modalities. Moreover, we introduce a
modality-switching instruction tuning (MosIT) and manually curate a
high-quality dataset for MosIT, based on which NExT-GPT is empowered with
complex cross-modal semantic understanding and content generation. Overall, our
research showcases the promising possibility of building an AI agent capable of
modeling universal modalities, paving the way for more human-like AI research
in the community.