ChatPaper.aiChatPaper

LLaSM: Groot Taal- en Spraakmodel

LLaSM: Large Language and Speech Model

August 30, 2023
Auteurs: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI

Samenvatting

Multi-modale grote taalmodellen hebben recentelijk aanzienlijke belangstelling gekregen. Hoewel de meeste werken zich richten op visie-taal multi-modale modellen die sterke mogelijkheden bieden in het volgen van visie- en taal-instructies, stellen wij dat spraak ook een belangrijke modaliteit is waarmee mensen interacteren met de wereld. Daarom is het cruciaal dat een algemeen doel dienende assistent in staat is om multi-modale spraak- en taal-instructies te volgen. In dit werk stellen we het Large Language and Speech Model (LLaSM) voor. LLaSM is een end-to-end getraind groot multi-modale spraak-taal model met cross-modale conversatievaardigheden, dat in staat is om spraak- en taal-instructies te volgen. Onze vroege experimenten tonen aan dat LLaSM een handiger en natuurlijkere manier biedt voor mensen om te interacteren met kunstmatige intelligentie. Specifiek brengen we ook een grote Speech Instruction Following dataset uit, genaamd LLaSM-Audio-Instructions. Code en demo zijn beschikbaar op https://github.com/LinkSoul-AI/LLaSM en https://huggingface.co/spaces/LinkSoul/LLaSM. De LLaSM-Audio-Instructions dataset is beschikbaar op https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
PDF342February 8, 2026