LLaSM : Modèle de Langage et de Parole à Grande Échelle
LLaSM: Large Language and Speech Model
August 30, 2023
Auteurs: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI
Résumé
Les modèles de langage multi-modaux de grande taille ont suscité un intérêt considérable récemment. Cependant, la plupart des travaux se concentrent sur les modèles multi-modaux vision-langage, offrant des capacités robustes pour suivre des instructions combinant vision et langage. Néanmoins, nous affirmons que la parole est également une modalité importante par laquelle les humains interagissent avec le monde. Par conséquent, il est crucial qu'un assistant à usage général soit capable de suivre des instructions multi-modales combinant parole et langage. Dans ce travail, nous proposons le modèle Large Language and Speech Model (LLaSM). LLaSM est un grand modèle multi-modal parole-langage entraîné de bout en bout avec des capacités conversationnelles inter-modales, capable de suivre des instructions combinant parole et langage. Nos premières expériences montrent que LLaSM offre une manière plus pratique et naturelle pour les humains d'interagir avec l'intelligence artificielle. Plus précisément, nous publions également un grand ensemble de données de suivi d'instructions vocales, LLaSM-Audio-Instructions. Le code et une démonstration sont disponibles à l'adresse https://github.com/LinkSoul-AI/LLaSM et https://huggingface.co/spaces/LinkSoul/LLaSM. L'ensemble de données LLaSM-Audio-Instructions est disponible à l'adresse https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest
recently. Though, most of the works focus on vision-language multi-modal models
providing strong capabilities in following vision-and-language instructions.
However, we claim that speech is also an important modality through which
humans interact with the world. Hence, it is crucial for a general-purpose
assistant to be able to follow multi-modal speech-and-language instructions. In
this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an
end-to-end trained large multi-modal speech-language model with cross-modal
conversational abilities, capable of following speech-and-language
instructions. Our early experiments show that LLaSM demonstrates a more
convenient and natural way for humans to interact with artificial intelligence.
Specifically, we also release a large Speech Instruction Following dataset
LLaSM-Audio-Instructions. Code and demo are available at
https://github.com/LinkSoul-AI/LLaSM and
https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions
dataset is available at
https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.