LLaSM: Modello Linguistico e Vocale su Larga Scala

Abstract

I modelli linguistici multimodali di grandi dimensioni hanno recentemente suscitato un notevole interesse. Tuttavia, la maggior parte dei lavori si concentra su modelli multimodali visione-linguaggio, offrendo forti capacità nel seguire istruzioni che coinvolgono sia la visione che il linguaggio. Noi sosteniamo che il parlato sia anch'esso una modalità importante attraverso cui gli esseri umani interagiscono con il mondo. Pertanto, è cruciale che un assistente generico sia in grado di seguire istruzioni multimodali che coinvolgono il parlato e il linguaggio. In questo lavoro, proponiamo il Large Language and Speech Model (LLaSM). LLaSM è un modello multimodale parlato-linguaggio di grandi dimensioni addestrato end-to-end con capacità conversazionali cross-modali, in grado di seguire istruzioni che coinvolgono il parlato e il linguaggio. I nostri primi esperimenti dimostrano che LLaSM offre un modo più conveniente e naturale per gli esseri umani di interagire con l'intelligenza artificiale. In particolare, rilasciamo anche un ampio dataset di istruzioni vocali, LLaSM-Audio-Instructions. Il codice e la demo sono disponibili su https://github.com/LinkSoul-AI/LLaSM e https://huggingface.co/spaces/LinkSoul/LLaSM. Il dataset LLaSM-Audio-Instructions è disponibile su https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.

English

Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.

LLaSM: Modello Linguistico e Vocale su Larga Scala

LLaSM: Large Language and Speech Model

Abstract

Support