LLaSM: Modelo de Lenguaje y Habla a Gran Escala
LLaSM: Large Language and Speech Model
August 30, 2023
Autores: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala han generado un interés significativo recientemente. Sin embargo, la mayoría de los trabajos se centran en modelos multimodales de visión y lenguaje, ofreciendo capacidades sólidas para seguir instrucciones que combinan visión y lenguaje. No obstante, sostenemos que el habla también es una modalidad importante a través de la cual los humanos interactúan con el mundo. Por lo tanto, es crucial que un asistente de propósito general sea capaz de seguir instrucciones multimodales que combinen habla y lenguaje. En este trabajo, proponemos el Modelo de Lenguaje y Habla de Gran Escala (LLaSM, por sus siglas en inglés). LLaSM es un modelo multimodal de gran escala entrenado de extremo a extremo con capacidades conversacionales entre modalidades, capaz de seguir instrucciones que combinan habla y lenguaje. Nuestros primeros experimentos muestran que LLaSM ofrece una forma más conveniente y natural para que los humanos interactúen con la inteligencia artificial. Específicamente, también publicamos un gran conjunto de datos de Seguimiento de Instrucciones de Habla, denominado LLaSM-Audio-Instructions. El código y la demostración están disponibles en https://github.com/LinkSoul-AI/LLaSM y https://huggingface.co/spaces/LinkSoul/LLaSM. El conjunto de datos LLaSM-Audio-Instructions está disponible en https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest
recently. Though, most of the works focus on vision-language multi-modal models
providing strong capabilities in following vision-and-language instructions.
However, we claim that speech is also an important modality through which
humans interact with the world. Hence, it is crucial for a general-purpose
assistant to be able to follow multi-modal speech-and-language instructions. In
this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an
end-to-end trained large multi-modal speech-language model with cross-modal
conversational abilities, capable of following speech-and-language
instructions. Our early experiments show that LLaSM demonstrates a more
convenient and natural way for humans to interact with artificial intelligence.
Specifically, we also release a large Speech Instruction Following dataset
LLaSM-Audio-Instructions. Code and demo are available at
https://github.com/LinkSoul-AI/LLaSM and
https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions
dataset is available at
https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.