ChatPaper.aiChatPaper

SpeechGPT: Stärkung großer Sprachmodelle mit intrinsischen cross-modalen Konversationsfähigkeiten

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

May 18, 2023
Autoren: Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
cs.AI

Zusammenfassung

Multimodale große Sprachmodelle werden als ein entscheidender Schritt auf dem Weg zur Künstlichen Allgemeinen Intelligenz (AGI) angesehen und haben mit dem Aufkommen von ChatGPT erhebliches Interesse geweckt. Allerdings verwenden aktuelle Sprachmodelle typischerweise das Kaskadenparadigma, was den Wissensaustausch zwischen den Modalitäten verhindert. In diesem Artikel schlagen wir SpeechGPT vor, ein großes Sprachmodell mit intrinsischen cross-modalen Konversationsfähigkeiten, das in der Lage ist, multimodale Inhalte wahrzunehmen und zu generieren. Mit diskreten Sprachrepräsentationen konstruieren wir zunächst SpeechInstruct, einen groß angelegten cross-modalen Sprachinstruktionsdatensatz. Zusätzlich setzen wir eine dreistufige Trainingsstrategie ein, die Modalanpassungs-Vortraining, cross-modales Instruktions-Feintuning und Chain-of-Modality-Instruktions-Feintuning umfasst. Die experimentellen Ergebnisse zeigen, dass SpeechGPT eine beeindruckende Fähigkeit besitzt, multimodale menschliche Anweisungen zu befolgen, und unterstreichen das Potenzial, mehrere Modalitäten mit einem Modell zu handhaben. Demos sind unter https://0nutation.github.io/SpeechGPT.github.io/ zu sehen.
English
Multi-modal large language models are regarded as a crucial step towards Artificial General Intelligence (AGI) and have garnered significant interest with the emergence of ChatGPT. However, current speech-language models typically adopt the cascade paradigm, preventing inter-modal knowledge transfer. In this paper, we propose SpeechGPT, a large language model with intrinsic cross-modal conversational abilities, capable of perceiving and generating multi-model content. With discrete speech representations, we first construct SpeechInstruct, a large-scale cross-modal speech instruction dataset. Additionally, we employ a three-stage training strategy that includes modality-adaptation pre-training, cross-modal instruction fine-tuning, and chain-of-modality instruction fine-tuning. The experimental results demonstrate that SpeechGPT has an impressive capacity to follow multi-modal human instructions and highlight the potential of handling multiple modalities with one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.
PDF42December 15, 2024