SpeechGPT: Potenciando los Modelos de Lenguaje de Gran Escala con Habilidades Conversacionales Intrínsecas Multimodales

Resumen

Los modelos de lenguaje multimodal de gran escala son considerados un paso crucial hacia la Inteligencia General Artificial (AGI) y han captado un interés significativo con la aparición de ChatGPT. Sin embargo, los modelos actuales de lenguaje y voz suelen adoptar el paradigma en cascada, lo que impide la transferencia de conocimiento entre modalidades. En este artículo, proponemos SpeechGPT, un modelo de lenguaje de gran escala con capacidades conversacionales intrínsecas entre modalidades, capaz de percibir y generar contenido multimodal. Utilizando representaciones discretas del habla, primero construimos SpeechInstruct, un conjunto de datos a gran escala de instrucciones de habla multimodal. Además, empleamos una estrategia de entrenamiento en tres etapas que incluye pre-entrenamiento de adaptación a la modalidad, ajuste fino de instrucciones multimodales y ajuste fino de instrucciones en cadena de modalidades. Los resultados experimentales demuestran que SpeechGPT tiene una capacidad impresionante para seguir instrucciones humanas multimodales y resaltan el potencial de manejar múltiples modalidades con un solo modelo. Las demostraciones se muestran en https://0nutation.github.io/SpeechGPT.github.io/.

English

Multi-modal large language models are regarded as a crucial step towards Artificial General Intelligence (AGI) and have garnered significant interest with the emergence of ChatGPT. However, current speech-language models typically adopt the cascade paradigm, preventing inter-modal knowledge transfer. In this paper, we propose SpeechGPT, a large language model with intrinsic cross-modal conversational abilities, capable of perceiving and generating multi-model content. With discrete speech representations, we first construct SpeechInstruct, a large-scale cross-modal speech instruction dataset. Additionally, we employ a three-stage training strategy that includes modality-adaptation pre-training, cross-modal instruction fine-tuning, and chain-of-modality instruction fine-tuning. The experimental results demonstrate that SpeechGPT has an impressive capacity to follow multi-modal human instructions and highlight the potential of handling multiple modalities with one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.

SpeechGPT: Potenciando los Modelos de Lenguaje de Gran Escala con Habilidades Conversacionales Intrínsecas Multimodales

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

Resumen

Support