ChatPaper.aiChatPaper

AnyGPT: Vereinheitlichtes multimodales LLM mit diskreter Sequenzmodellierung

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

February 19, 2024
Autoren: Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
cs.AI

Zusammenfassung

Wir stellen AnyGPT vor, ein any-to-any multimodales Sprachmodell, das diskrete Repräsentationen für die einheitliche Verarbeitung verschiedener Modalitäten nutzt, einschließlich Sprache, Text, Bildern und Musik. AnyGPT kann stabil trainiert werden, ohne dass Änderungen an der aktuellen Architektur oder den Trainingsparadigmen großer Sprachmodelle (LLMs) erforderlich sind. Stattdessen verlässt es sich ausschließlich auf Datenvorverarbeitung, was die nahtlose Integration neuer Modalitäten in LLMs ermöglicht, ähnlich der Einbindung neuer Sprachen. Wir erstellen einen multimodalen, textzentrierten Datensatz für das Vorabtraining zur multimodalen Ausrichtung. Mithilfe generativer Modelle synthetisieren wir den ersten groß angelegten any-to-any multimodalen Instruktionsdatensatz. Er besteht aus 108k Proben mehrschrittiger Konversationen, die verschiedene Modalitäten komplex verweben und das Modell somit befähigen, beliebige Kombinationen multimodaler Eingaben und Ausgaben zu verarbeiten. Experimentelle Ergebnisse zeigen, dass AnyGPT any-to-any multimodale Konversationen ermöglicht und dabei eine Leistung erzielt, die mit spezialisierten Modellen über alle Modalitäten hinweg vergleichbar ist. Dies beweist, dass diskrete Repräsentationen mehrere Modalitäten innerhalb eines Sprachmodells effektiv und praktisch vereinheitlichen können. Demos sind unter https://junzhan2000.github.io/AnyGPT.github.io/ zu finden.
English
We introduce AnyGPT, an any-to-any multimodal language model that utilizes discrete representations for the unified processing of various modalities, including speech, text, images, and music. AnyGPT can be trained stably without any alterations to the current large language model (LLM) architecture or training paradigms. Instead, it relies exclusively on data-level preprocessing, facilitating the seamless integration of new modalities into LLMs, akin to the incorporation of new languages. We build a multimodal text-centric dataset for multimodal alignment pre-training. Utilizing generative models, we synthesize the first large-scale any-to-any multimodal instruction dataset. It consists of 108k samples of multi-turn conversations that intricately interweave various modalities, thus equipping the model to handle arbitrary combinations of multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is capable of facilitating any-to-any multimodal conversation while achieving performance comparable to specialized models across all modalities, proving that discrete representations can effectively and conveniently unify multiple modalities within a language model. Demos are shown in https://junzhan2000.github.io/AnyGPT.github.io/

Summary

AI-Generated Summary

PDF458December 15, 2024