LLaSM: Modello Linguistico e Vocale su Larga Scala
LLaSM: Large Language and Speech Model
August 30, 2023
Autori: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni hanno recentemente suscitato un notevole interesse. Tuttavia, la maggior parte dei lavori si concentra su modelli multimodali visione-linguaggio, offrendo forti capacità nel seguire istruzioni che coinvolgono sia la visione che il linguaggio. Noi sosteniamo che il parlato sia anch'esso una modalità importante attraverso cui gli esseri umani interagiscono con il mondo. Pertanto, è cruciale che un assistente generico sia in grado di seguire istruzioni multimodali che coinvolgono il parlato e il linguaggio. In questo lavoro, proponiamo il Large Language and Speech Model (LLaSM). LLaSM è un modello multimodale parlato-linguaggio di grandi dimensioni addestrato end-to-end con capacità conversazionali cross-modali, in grado di seguire istruzioni che coinvolgono il parlato e il linguaggio. I nostri primi esperimenti dimostrano che LLaSM offre un modo più conveniente e naturale per gli esseri umani di interagire con l'intelligenza artificiale. In particolare, rilasciamo anche un ampio dataset di istruzioni vocali, LLaSM-Audio-Instructions. Il codice e la demo sono disponibili su https://github.com/LinkSoul-AI/LLaSM e https://huggingface.co/spaces/LinkSoul/LLaSM. Il dataset LLaSM-Audio-Instructions è disponibile su https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest
recently. Though, most of the works focus on vision-language multi-modal models
providing strong capabilities in following vision-and-language instructions.
However, we claim that speech is also an important modality through which
humans interact with the world. Hence, it is crucial for a general-purpose
assistant to be able to follow multi-modal speech-and-language instructions. In
this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an
end-to-end trained large multi-modal speech-language model with cross-modal
conversational abilities, capable of following speech-and-language
instructions. Our early experiments show that LLaSM demonstrates a more
convenient and natural way for humans to interact with artificial intelligence.
Specifically, we also release a large Speech Instruction Following dataset
LLaSM-Audio-Instructions. Code and demo are available at
https://github.com/LinkSoul-AI/LLaSM and
https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions
dataset is available at
https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.