SpeechGPT: Capacitando Modelos de Linguagem de Grande Escala com Habilidades Conversacionais Intrinsecamente Multimodais

Resumo

Modelos de linguagem multimodal de grande escala são considerados um passo crucial em direção à Inteligência Geral Artificial (AGI) e têm atraído um interesse significativo com o surgimento do ChatGPT. No entanto, os modelos atuais de fala e linguagem geralmente adotam o paradigma em cascata, impedindo a transferência de conhecimento intermodal. Neste artigo, propomos o SpeechGPT, um modelo de linguagem de grande escala com habilidades intrínsecas de conversação multimodal, capaz de perceber e gerar conteúdo multimodelo. Com representações discretas de fala, primeiro construímos o SpeechInstruct, um conjunto de dados de instruções de fala multimodal em grande escala. Além disso, empregamos uma estratégia de treinamento em três estágios que inclui pré-treinamento de adaptação modal, ajuste fino de instruções multimodais e ajuste fino de instruções em cadeia de modalidades. Os resultados experimentais demonstram que o SpeechGPT possui uma capacidade impressionante de seguir instruções humanas multimodais e destacam o potencial de lidar com múltiplas modalidades com um único modelo. Demonstrações estão disponíveis em https://0nutation.github.io/SpeechGPT.github.io/.

English

Multi-modal large language models are regarded as a crucial step towards Artificial General Intelligence (AGI) and have garnered significant interest with the emergence of ChatGPT. However, current speech-language models typically adopt the cascade paradigm, preventing inter-modal knowledge transfer. In this paper, we propose SpeechGPT, a large language model with intrinsic cross-modal conversational abilities, capable of perceiving and generating multi-model content. With discrete speech representations, we first construct SpeechInstruct, a large-scale cross-modal speech instruction dataset. Additionally, we employ a three-stage training strategy that includes modality-adaptation pre-training, cross-modal instruction fine-tuning, and chain-of-modality instruction fine-tuning. The experimental results demonstrate that SpeechGPT has an impressive capacity to follow multi-modal human instructions and highlight the potential of handling multiple modalities with one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.

SpeechGPT: Capacitando Modelos de Linguagem de Grande Escala com Habilidades Conversacionais Intrinsecamente Multimodais

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

Resumo

Support