NExT-GPT: Мультимодальная языковая модель с поддержкой любых форматов данных

Аннотация

Хотя в последнее время мультимодальные большие языковые модели (MM-LLMs) достигли значительных успехов, они в основном ограничиваются пониманием мультимодальных данных на входе, не обладая способностью генерировать контент в нескольких модальностях. Поскольку мы, люди, всегда воспринимаем мир и общаемся с другими через различные модальности, разработка MM-LLMs, способных принимать и создавать контент в любой модальности (any-to-any), становится ключевой для создания ИИ, приближенного к человеческому уровню. Чтобы заполнить этот пробел, мы представляем универсальную end-to-end систему NExT-GPT, которая объединяет LLM с мультимодальными адаптерами и различными диффузионными декодерами, позволяя NExT-GPT воспринимать входные данные и генерировать выходные в произвольных комбинациях текста, изображений, видео и аудио. Используя уже хорошо обученные высокопроизводительные кодировщики и декодировщики, NExT-GPT настраивается с помощью лишь небольшого количества параметров (1%) в определенных проекционных слоях, что не только снижает стоимость обучения, но и упрощает расширение на дополнительные потенциальные модальности. Кроме того, мы вводим метод тонкой настройки с инструкциями по переключению модальностей (MosIT) и вручную создаем высококачественный набор данных для MosIT, на основе которого NExT-GPT приобретает способность к сложному кросс-модальному семантическому пониманию и генерации контента. В целом, наше исследование демонстрирует перспективную возможность создания ИИ-агента, способного моделировать универсальные модальности, прокладывая путь к более человекообразным исследованиям ИИ в научном сообществе.

English

While recently Multimodal Large Language Models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce content in multiple modalities. As we humans always perceive the world and communicate with people through various modalities, developing any-to-any MM-LLMs capable of accepting and delivering content in any modality becomes essential to human-level AI. To fill the gap, we present an end-to-end general-purpose any-to-any MM-LLM system, NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion decoders, enabling NExT-GPT to perceive inputs and generate outputs in arbitrary combinations of text, images, videos, and audio. By leveraging the existing well-trained highly-performing encoders and decoders, NExT-GPT is tuned with only a small amount of parameter (1%) of certain projection layers, which not only benefits low-cost training and also facilitates convenient expansion to more potential modalities. Moreover, we introduce a modality-switching instruction tuning (MosIT) and manually curate a high-quality dataset for MosIT, based on which NExT-GPT is empowered with complex cross-modal semantic understanding and content generation. Overall, our research showcases the promising possibility of building an AI agent capable of modeling universal modalities, paving the way for more human-like AI research in the community.

NExT-GPT: Мультимодальная языковая модель с поддержкой любых форматов данных

NExT-GPT: Any-to-Any Multimodal LLM

Аннотация

Support