AnyGPT: Унифицированная мультимодальная языковая модель с дискретным последовательностным моделированием
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
February 19, 2024
Авторы: Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
cs.AI
Аннотация
Мы представляем AnyGPT, универсальную мультимодальную языковую модель, которая использует дискретные представления для единой обработки различных модальностей, включая речь, текст, изображения и музыку. AnyGPT может быть стабильно обучена без каких-либо изменений в текущей архитектуре крупных языковых моделей (LLM) или парадигмах обучения. Вместо этого она полагается исключительно на предварительную обработку данных, что облегчает бесшовную интеграцию новых модальностей в LLM, аналогично добавлению новых языков. Мы создаем мультимодальный текстоцентричный набор данных для предварительного обучения мультимодального выравнивания. Используя генеративные модели, мы синтезируем первый крупномасштабный набор данных для универсальных мультимодальных инструкций. Он состоит из 108 тысяч примеров многоходовых диалогов, которые сложно переплетают различные модальности, что позволяет модели обрабатывать произвольные комбинации мультимодальных входных и выходных данных. Экспериментальные результаты показывают, что AnyGPT способна поддерживать универсальные мультимодальные диалоги, достигая производительности, сопоставимой со специализированными моделями во всех модальностях, что доказывает, что дискретные представления могут эффективно и удобно объединять несколько модальностей в рамках языковой модели. Демонстрации доступны по адресу: https://junzhan2000.github.io/AnyGPT.github.io/
English
We introduce AnyGPT, an any-to-any multimodal language model that utilizes
discrete representations for the unified processing of various modalities,
including speech, text, images, and music. AnyGPT can be trained stably without
any alterations to the current large language model (LLM) architecture or
training paradigms. Instead, it relies exclusively on data-level preprocessing,
facilitating the seamless integration of new modalities into LLMs, akin to the
incorporation of new languages. We build a multimodal text-centric dataset for
multimodal alignment pre-training. Utilizing generative models, we synthesize
the first large-scale any-to-any multimodal instruction dataset. It consists of
108k samples of multi-turn conversations that intricately interweave various
modalities, thus equipping the model to handle arbitrary combinations of
multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is
capable of facilitating any-to-any multimodal conversation while achieving
performance comparable to specialized models across all modalities, proving
that discrete representations can effectively and conveniently unify multiple
modalities within a language model. Demos are shown in
https://junzhan2000.github.io/AnyGPT.github.io/