SpeechGPT: Potenciando los Modelos de Lenguaje de Gran Escala con Habilidades Conversacionales Intrínsecas Multimodales
SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities
May 18, 2023
Autores: Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala son considerados un paso crucial hacia la Inteligencia General Artificial (AGI) y han captado un interés significativo con la aparición de ChatGPT. Sin embargo, los modelos actuales de lenguaje y voz suelen adoptar el paradigma en cascada, lo que impide la transferencia de conocimiento entre modalidades. En este artículo, proponemos SpeechGPT, un modelo de lenguaje de gran escala con capacidades conversacionales intrínsecas entre modalidades, capaz de percibir y generar contenido multimodal. Utilizando representaciones discretas del habla, primero construimos SpeechInstruct, un conjunto de datos a gran escala de instrucciones de habla multimodal. Además, empleamos una estrategia de entrenamiento en tres etapas que incluye pre-entrenamiento de adaptación a la modalidad, ajuste fino de instrucciones multimodales y ajuste fino de instrucciones en cadena de modalidades. Los resultados experimentales demuestran que SpeechGPT tiene una capacidad impresionante para seguir instrucciones humanas multimodales y resaltan el potencial de manejar múltiples modalidades con un solo modelo. Las demostraciones se muestran en https://0nutation.github.io/SpeechGPT.github.io/.
English
Multi-modal large language models are regarded as a crucial step towards
Artificial General Intelligence (AGI) and have garnered significant interest
with the emergence of ChatGPT. However, current speech-language models
typically adopt the cascade paradigm, preventing inter-modal knowledge
transfer. In this paper, we propose SpeechGPT, a large language model with
intrinsic cross-modal conversational abilities, capable of perceiving and
generating multi-model content. With discrete speech representations, we first
construct SpeechInstruct, a large-scale cross-modal speech instruction dataset.
Additionally, we employ a three-stage training strategy that includes
modality-adaptation pre-training, cross-modal instruction fine-tuning, and
chain-of-modality instruction fine-tuning. The experimental results demonstrate
that SpeechGPT has an impressive capacity to follow multi-modal human
instructions and highlight the potential of handling multiple modalities with
one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.