AnyGPT: Verenigd Multimodaal LLM met Discreet Sequentiële Modellering
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
February 19, 2024
Auteurs: Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
cs.AI
Samenvatting
We introduceren AnyGPT, een any-to-any multimodale taalmodel dat gebruik maakt van discrete representaties voor de verenigde verwerking van verschillende modaliteiten, waaronder spraak, tekst, afbeeldingen en muziek. AnyGPT kan stabiel worden getraind zonder enige aanpassingen aan de huidige architectuur van grote taalmodellen (LLM) of trainingsparadigma's. In plaats daarvan vertrouwt het uitsluitend op data-level preprocessing, wat de naadloze integratie van nieuwe modaliteiten in LLM's vergemakkelijkt, vergelijkbaar met de integratie van nieuwe talen. We hebben een multimodaal tekstgericht dataset gebouwd voor multimodale alignement pre-training. Met behulp van generatieve modellen synthetiseren we de eerste grootschalige any-to-any multimodale instructiedataset. Deze bestaat uit 108k voorbeelden van meerzijdige gesprekken die verschillende modaliteiten op ingewikkelde wijze verweven, waardoor het model in staat wordt gesteld om willekeurige combinaties van multimodale invoer en uitvoer te verwerken. Experimentele resultaten tonen aan dat AnyGPT in staat is om any-to-any multimodale gesprekken te faciliteren en prestaties te behalen die vergelijkbaar zijn met gespecialiseerde modellen voor alle modaliteiten, wat aantoont dat discrete representaties effectief en gemakkelijk meerdere modaliteiten binnen een taalmodel kunnen verenigen. Demo's zijn te zien op https://junzhan2000.github.io/AnyGPT.github.io/.
English
We introduce AnyGPT, an any-to-any multimodal language model that utilizes
discrete representations for the unified processing of various modalities,
including speech, text, images, and music. AnyGPT can be trained stably without
any alterations to the current large language model (LLM) architecture or
training paradigms. Instead, it relies exclusively on data-level preprocessing,
facilitating the seamless integration of new modalities into LLMs, akin to the
incorporation of new languages. We build a multimodal text-centric dataset for
multimodal alignment pre-training. Utilizing generative models, we synthesize
the first large-scale any-to-any multimodal instruction dataset. It consists of
108k samples of multi-turn conversations that intricately interweave various
modalities, thus equipping the model to handle arbitrary combinations of
multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is
capable of facilitating any-to-any multimodal conversation while achieving
performance comparable to specialized models across all modalities, proving
that discrete representations can effectively and conveniently unify multiple
modalities within a language model. Demos are shown in
https://junzhan2000.github.io/AnyGPT.github.io/