NExT-GPT: Any-to-Any Multimodales LLM
NExT-GPT: Any-to-Any Multimodal LLM
September 11, 2023
Autoren: Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
cs.AI
Zusammenfassung
Während Multimodale Große Sprachmodelle (MM-LLMs) in letzter Zeit bedeutende Fortschritte gemacht haben, leiden sie meist unter der Einschränkung, nur multimodales Verständnis auf der Eingabeseite zu ermöglichen, ohne die Fähigkeit, Inhalte in mehreren Modalitäten zu erzeugen. Da wir Menschen die Welt stets durch verschiedene Modalitäten wahrnehmen und mit anderen kommunizieren, wird die Entwicklung von any-to-any MM-LLMs, die in der Lage sind, Inhalte in beliebigen Modalitäten zu akzeptieren und zu liefern, entscheidend für KI auf menschlichem Niveau. Um diese Lücke zu schließen, präsentieren wir ein end-to-end allgemeines any-to-any MM-LLM-System, NExT-GPT. Wir verbinden ein LLM mit multimodalen Adaptern und verschiedenen Diffusionsdekodern, wodurch NExT-GPT in der Lage ist, Eingaben wahrzunehmen und Ausgaben in beliebigen Kombinationen von Text, Bildern, Videos und Audio zu erzeugen. Durch die Nutzung bereits gut trainierter, hochleistungsfähiger Encoder und Decoder wird NExT-GPT mit nur einer geringen Anzahl von Parametern (1%) bestimmter Projektionsschichten feinabgestimmt, was nicht nur kostengünstiges Training ermöglicht, sondern auch eine bequeme Erweiterung auf weitere potenzielle Modalitäten erleichtert. Darüber hinaus führen wir ein Modality-Switching Instruction Tuning (MosIT) ein und kuratieren manuell einen hochwertigen Datensatz für MosIT, auf dessen Grundlage NExT-GPT mit komplexem cross-modalem semantischem Verständnis und Inhaltsgenerierung ausgestattet wird. Insgesamt zeigt unsere Forschung die vielversprechende Möglichkeit auf, einen KI-Agenten zu entwickeln, der universelle Modalitäten modellieren kann, und ebnet den Weg für menschenähnlichere KI-Forschung in der Community.
English
While recently Multimodal Large Language Models (MM-LLMs) have made exciting
strides, they mostly fall prey to the limitation of only input-side multimodal
understanding, without the ability to produce content in multiple modalities.
As we humans always perceive the world and communicate with people through
various modalities, developing any-to-any MM-LLMs capable of accepting and
delivering content in any modality becomes essential to human-level AI. To fill
the gap, we present an end-to-end general-purpose any-to-any MM-LLM system,
NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion
decoders, enabling NExT-GPT to perceive inputs and generate outputs in
arbitrary combinations of text, images, videos, and audio. By leveraging the
existing well-trained highly-performing encoders and decoders, NExT-GPT is
tuned with only a small amount of parameter (1%) of certain projection layers,
which not only benefits low-cost training and also facilitates convenient
expansion to more potential modalities. Moreover, we introduce a
modality-switching instruction tuning (MosIT) and manually curate a
high-quality dataset for MosIT, based on which NExT-GPT is empowered with
complex cross-modal semantic understanding and content generation. Overall, our
research showcases the promising possibility of building an AI agent capable of
modeling universal modalities, paving the way for more human-like AI research
in the community.