NExT-GPT: Мультимодальная языковая модель с поддержкой любых форматов данных
NExT-GPT: Any-to-Any Multimodal LLM
September 11, 2023
Авторы: Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
cs.AI
Аннотация
Хотя в последнее время мультимодальные большие языковые модели (MM-LLMs) достигли значительных успехов, они в основном ограничиваются пониманием мультимодальных данных на входе, не обладая способностью генерировать контент в нескольких модальностях. Поскольку мы, люди, всегда воспринимаем мир и общаемся с другими через различные модальности, разработка MM-LLMs, способных принимать и создавать контент в любой модальности (any-to-any), становится ключевой для создания ИИ, приближенного к человеческому уровню. Чтобы заполнить этот пробел, мы представляем универсальную end-to-end систему NExT-GPT, которая объединяет LLM с мультимодальными адаптерами и различными диффузионными декодерами, позволяя NExT-GPT воспринимать входные данные и генерировать выходные в произвольных комбинациях текста, изображений, видео и аудио. Используя уже хорошо обученные высокопроизводительные кодировщики и декодировщики, NExT-GPT настраивается с помощью лишь небольшого количества параметров (1%) в определенных проекционных слоях, что не только снижает стоимость обучения, но и упрощает расширение на дополнительные потенциальные модальности. Кроме того, мы вводим метод тонкой настройки с инструкциями по переключению модальностей (MosIT) и вручную создаем высококачественный набор данных для MosIT, на основе которого NExT-GPT приобретает способность к сложному кросс-модальному семантическому пониманию и генерации контента. В целом, наше исследование демонстрирует перспективную возможность создания ИИ-агента, способного моделировать универсальные модальности, прокладывая путь к более человекообразным исследованиям ИИ в научном сообществе.
English
While recently Multimodal Large Language Models (MM-LLMs) have made exciting
strides, they mostly fall prey to the limitation of only input-side multimodal
understanding, without the ability to produce content in multiple modalities.
As we humans always perceive the world and communicate with people through
various modalities, developing any-to-any MM-LLMs capable of accepting and
delivering content in any modality becomes essential to human-level AI. To fill
the gap, we present an end-to-end general-purpose any-to-any MM-LLM system,
NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion
decoders, enabling NExT-GPT to perceive inputs and generate outputs in
arbitrary combinations of text, images, videos, and audio. By leveraging the
existing well-trained highly-performing encoders and decoders, NExT-GPT is
tuned with only a small amount of parameter (1%) of certain projection layers,
which not only benefits low-cost training and also facilitates convenient
expansion to more potential modalities. Moreover, we introduce a
modality-switching instruction tuning (MosIT) and manually curate a
high-quality dataset for MosIT, based on which NExT-GPT is empowered with
complex cross-modal semantic understanding and content generation. Overall, our
research showcases the promising possibility of building an AI agent capable of
modeling universal modalities, paving the way for more human-like AI research
in the community.