LLaSM: Groot Taal- en Spraakmodel
LLaSM: Large Language and Speech Model
August 30, 2023
Auteurs: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI
Samenvatting
Multi-modale grote taalmodellen hebben recentelijk aanzienlijke belangstelling gekregen. Hoewel de meeste werken zich richten op visie-taal multi-modale modellen die sterke mogelijkheden bieden in het volgen van visie- en taal-instructies, stellen wij dat spraak ook een belangrijke modaliteit is waarmee mensen interacteren met de wereld. Daarom is het cruciaal dat een algemeen doel dienende assistent in staat is om multi-modale spraak- en taal-instructies te volgen. In dit werk stellen we het Large Language and Speech Model (LLaSM) voor. LLaSM is een end-to-end getraind groot multi-modale spraak-taal model met cross-modale conversatievaardigheden, dat in staat is om spraak- en taal-instructies te volgen. Onze vroege experimenten tonen aan dat LLaSM een handiger en natuurlijkere manier biedt voor mensen om te interacteren met kunstmatige intelligentie. Specifiek brengen we ook een grote Speech Instruction Following dataset uit, genaamd LLaSM-Audio-Instructions. Code en demo zijn beschikbaar op https://github.com/LinkSoul-AI/LLaSM en https://huggingface.co/spaces/LinkSoul/LLaSM. De LLaSM-Audio-Instructions dataset is beschikbaar op https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest
recently. Though, most of the works focus on vision-language multi-modal models
providing strong capabilities in following vision-and-language instructions.
However, we claim that speech is also an important modality through which
humans interact with the world. Hence, it is crucial for a general-purpose
assistant to be able to follow multi-modal speech-and-language instructions. In
this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an
end-to-end trained large multi-modal speech-language model with cross-modal
conversational abilities, capable of following speech-and-language
instructions. Our early experiments show that LLaSM demonstrates a more
convenient and natural way for humans to interact with artificial intelligence.
Specifically, we also release a large Speech Instruction Following dataset
LLaSM-Audio-Instructions. Code and demo are available at
https://github.com/LinkSoul-AI/LLaSM and
https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions
dataset is available at
https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.