SpeechGPT: Stärkung großer Sprachmodelle mit intrinsischen cross-modalen Konversationsfähigkeiten
SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities
May 18, 2023
Autoren: Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle werden als ein entscheidender Schritt auf dem Weg zur Künstlichen Allgemeinen Intelligenz (AGI) angesehen und haben mit dem Aufkommen von ChatGPT erhebliches Interesse geweckt. Allerdings verwenden aktuelle Sprachmodelle typischerweise das Kaskadenparadigma, was den Wissensaustausch zwischen den Modalitäten verhindert. In diesem Artikel schlagen wir SpeechGPT vor, ein großes Sprachmodell mit intrinsischen cross-modalen Konversationsfähigkeiten, das in der Lage ist, multimodale Inhalte wahrzunehmen und zu generieren. Mit diskreten Sprachrepräsentationen konstruieren wir zunächst SpeechInstruct, einen groß angelegten cross-modalen Sprachinstruktionsdatensatz. Zusätzlich setzen wir eine dreistufige Trainingsstrategie ein, die Modalanpassungs-Vortraining, cross-modales Instruktions-Feintuning und Chain-of-Modality-Instruktions-Feintuning umfasst. Die experimentellen Ergebnisse zeigen, dass SpeechGPT eine beeindruckende Fähigkeit besitzt, multimodale menschliche Anweisungen zu befolgen, und unterstreichen das Potenzial, mehrere Modalitäten mit einem Modell zu handhaben. Demos sind unter https://0nutation.github.io/SpeechGPT.github.io/ zu sehen.
English
Multi-modal large language models are regarded as a crucial step towards
Artificial General Intelligence (AGI) and have garnered significant interest
with the emergence of ChatGPT. However, current speech-language models
typically adopt the cascade paradigm, preventing inter-modal knowledge
transfer. In this paper, we propose SpeechGPT, a large language model with
intrinsic cross-modal conversational abilities, capable of perceiving and
generating multi-model content. With discrete speech representations, we first
construct SpeechInstruct, a large-scale cross-modal speech instruction dataset.
Additionally, we employ a three-stage training strategy that includes
modality-adaptation pre-training, cross-modal instruction fine-tuning, and
chain-of-modality instruction fine-tuning. The experimental results demonstrate
that SpeechGPT has an impressive capacity to follow multi-modal human
instructions and highlight the potential of handling multiple modalities with
one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.