ChatPaper.aiChatPaper

SpeechGPT : Renforcer les modèles de langage de grande taille avec des capacités conversationnelles intermodales intrinsèques

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

May 18, 2023
Auteurs: Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
cs.AI

Résumé

Les modèles de langage multi-modaux de grande échelle sont considérés comme une étape cruciale vers l'Intelligence Artificielle Générale (IAG) et ont suscité un intérêt significatif avec l'émergence de ChatGPT. Cependant, les modèles actuels combinant parole et langage adoptent généralement le paradigme en cascade, ce qui empêche le transfert de connaissances inter-modales. Dans cet article, nous proposons SpeechGPT, un modèle de langage de grande échelle doté de capacités conversationnelles intrinsèquement inter-modales, capable de percevoir et de générer du contenu multi-modal. En utilisant des représentations discrètes de la parole, nous construisons d'abord SpeechInstruct, un ensemble de données à grande échelle d'instructions vocales inter-modales. De plus, nous employons une stratégie d'entraînement en trois étapes comprenant un pré-entraînement d'adaptation modale, un affinage par instructions inter-modales et un affinage par chaîne d'instructions modales. Les résultats expérimentaux démontrent que SpeechGPT possède une capacité impressionnante à suivre les instructions humaines multi-modales et mettent en lumière le potentiel de gestion de multiples modalités avec un seul modèle. Des démonstrations sont disponibles sur https://0nutation.github.io/SpeechGPT.github.io/.
English
Multi-modal large language models are regarded as a crucial step towards Artificial General Intelligence (AGI) and have garnered significant interest with the emergence of ChatGPT. However, current speech-language models typically adopt the cascade paradigm, preventing inter-modal knowledge transfer. In this paper, we propose SpeechGPT, a large language model with intrinsic cross-modal conversational abilities, capable of perceiving and generating multi-model content. With discrete speech representations, we first construct SpeechInstruct, a large-scale cross-modal speech instruction dataset. Additionally, we employ a three-stage training strategy that includes modality-adaptation pre-training, cross-modal instruction fine-tuning, and chain-of-modality instruction fine-tuning. The experimental results demonstrate that SpeechGPT has an impressive capacity to follow multi-modal human instructions and highlight the potential of handling multiple modalities with one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.
PDF42December 15, 2024