ChatPaper.aiChatPaper

LLaSM : Modèle de Langage et de Parole à Grande Échelle

LLaSM: Large Language and Speech Model

August 30, 2023
Auteurs: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI

Résumé

Les modèles de langage multi-modaux de grande taille ont suscité un intérêt considérable récemment. Cependant, la plupart des travaux se concentrent sur les modèles multi-modaux vision-langage, offrant des capacités robustes pour suivre des instructions combinant vision et langage. Néanmoins, nous affirmons que la parole est également une modalité importante par laquelle les humains interagissent avec le monde. Par conséquent, il est crucial qu'un assistant à usage général soit capable de suivre des instructions multi-modales combinant parole et langage. Dans ce travail, nous proposons le modèle Large Language and Speech Model (LLaSM). LLaSM est un grand modèle multi-modal parole-langage entraîné de bout en bout avec des capacités conversationnelles inter-modales, capable de suivre des instructions combinant parole et langage. Nos premières expériences montrent que LLaSM offre une manière plus pratique et naturelle pour les humains d'interagir avec l'intelligence artificielle. Plus précisément, nous publions également un grand ensemble de données de suivi d'instructions vocales, LLaSM-Audio-Instructions. Le code et une démonstration sont disponibles à l'adresse https://github.com/LinkSoul-AI/LLaSM et https://huggingface.co/spaces/LinkSoul/LLaSM. L'ensemble de données LLaSM-Audio-Instructions est disponible à l'adresse https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
PDF342December 15, 2024