SpeechGPT : Renforcer les modèles de langage de grande taille avec des capacités conversationnelles intermodales intrinsèques
SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities
May 18, 2023
Auteurs: Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
cs.AI
Résumé
Les modèles de langage multi-modaux de grande échelle sont considérés comme une étape cruciale vers l'Intelligence Artificielle Générale (IAG) et ont suscité un intérêt significatif avec l'émergence de ChatGPT. Cependant, les modèles actuels combinant parole et langage adoptent généralement le paradigme en cascade, ce qui empêche le transfert de connaissances inter-modales. Dans cet article, nous proposons SpeechGPT, un modèle de langage de grande échelle doté de capacités conversationnelles intrinsèquement inter-modales, capable de percevoir et de générer du contenu multi-modal. En utilisant des représentations discrètes de la parole, nous construisons d'abord SpeechInstruct, un ensemble de données à grande échelle d'instructions vocales inter-modales. De plus, nous employons une stratégie d'entraînement en trois étapes comprenant un pré-entraînement d'adaptation modale, un affinage par instructions inter-modales et un affinage par chaîne d'instructions modales. Les résultats expérimentaux démontrent que SpeechGPT possède une capacité impressionnante à suivre les instructions humaines multi-modales et mettent en lumière le potentiel de gestion de multiples modalités avec un seul modèle. Des démonstrations sont disponibles sur https://0nutation.github.io/SpeechGPT.github.io/.
English
Multi-modal large language models are regarded as a crucial step towards
Artificial General Intelligence (AGI) and have garnered significant interest
with the emergence of ChatGPT. However, current speech-language models
typically adopt the cascade paradigm, preventing inter-modal knowledge
transfer. In this paper, we propose SpeechGPT, a large language model with
intrinsic cross-modal conversational abilities, capable of perceiving and
generating multi-model content. With discrete speech representations, we first
construct SpeechInstruct, a large-scale cross-modal speech instruction dataset.
Additionally, we employ a three-stage training strategy that includes
modality-adaptation pre-training, cross-modal instruction fine-tuning, and
chain-of-modality instruction fine-tuning. The experimental results demonstrate
that SpeechGPT has an impressive capacity to follow multi-modal human
instructions and highlight the potential of handling multiple modalities with
one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.