SpeechGPT: Capacitando Modelos de Linguagem de Grande Escala com Habilidades Conversacionais Intrinsecamente Multimodais
SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities
May 18, 2023
Autores: Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
cs.AI
Resumo
Modelos de linguagem multimodal de grande escala são considerados um passo crucial em direção à Inteligência Geral Artificial (AGI) e têm atraído um interesse significativo com o surgimento do ChatGPT. No entanto, os modelos atuais de fala e linguagem geralmente adotam o paradigma em cascata, impedindo a transferência de conhecimento intermodal. Neste artigo, propomos o SpeechGPT, um modelo de linguagem de grande escala com habilidades intrínsecas de conversação multimodal, capaz de perceber e gerar conteúdo multimodelo. Com representações discretas de fala, primeiro construímos o SpeechInstruct, um conjunto de dados de instruções de fala multimodal em grande escala. Além disso, empregamos uma estratégia de treinamento em três estágios que inclui pré-treinamento de adaptação modal, ajuste fino de instruções multimodais e ajuste fino de instruções em cadeia de modalidades. Os resultados experimentais demonstram que o SpeechGPT possui uma capacidade impressionante de seguir instruções humanas multimodais e destacam o potencial de lidar com múltiplas modalidades com um único modelo. Demonstrações estão disponíveis em https://0nutation.github.io/SpeechGPT.github.io/.
English
Multi-modal large language models are regarded as a crucial step towards
Artificial General Intelligence (AGI) and have garnered significant interest
with the emergence of ChatGPT. However, current speech-language models
typically adopt the cascade paradigm, preventing inter-modal knowledge
transfer. In this paper, we propose SpeechGPT, a large language model with
intrinsic cross-modal conversational abilities, capable of perceiving and
generating multi-model content. With discrete speech representations, we first
construct SpeechInstruct, a large-scale cross-modal speech instruction dataset.
Additionally, we employ a three-stage training strategy that includes
modality-adaptation pre-training, cross-modal instruction fine-tuning, and
chain-of-modality instruction fine-tuning. The experimental results demonstrate
that SpeechGPT has an impressive capacity to follow multi-modal human
instructions and highlight the potential of handling multiple modalities with
one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.