LLaSM: 대규모 언어 및 음성 모델
LLaSM: Large Language and Speech Model
August 30, 2023
저자: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI
초록
최근 멀티모달 대형 언어 모델이 상당한 관심을 받고 있습니다. 그러나 대부분의 연구는 시각-언어 멀티모달 모델에 초점을 맞추어 시각 및 언어 지시를 따르는 강력한 능력을 제공하는 데 집중하고 있습니다. 하지만 우리는 음성이 인간이 세계와 상호작용하는 중요한 양식 중 하나라고 주장합니다. 따라서 일반적인 목적의 어시스턴트가 멀티모달 음성-언어 지시를 따를 수 있는 능력을 갖추는 것이 중요합니다. 본 연구에서는 대형 언어 및 음성 모델(Large Language and Speech Model, LLaSM)을 제안합니다. LLaSM은 크로스모달 대화 능력을 갖춘 엔드투엔드 학습된 대형 멀티모달 음성-언어 모델로, 음성 및 언어 지시를 따를 수 있습니다. 초기 실험 결과, LLaSM은 인간이 인공지능과 상호작용하는 더 편리하고 자연스러운 방식을 보여줍니다. 특히, 우리는 대규모 음성 지시 데이터셋인 LLaSM-Audio-Instructions도 공개합니다. 코드와 데모는 https://github.com/LinkSoul-AI/LLaSM과 https://huggingface.co/spaces/LinkSoul/LLaSM에서 확인할 수 있습니다. LLaSM-Audio-Instructions 데이터셋은 https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions에서 이용 가능합니다.
English
Multi-modal large language models have garnered significant interest
recently. Though, most of the works focus on vision-language multi-modal models
providing strong capabilities in following vision-and-language instructions.
However, we claim that speech is also an important modality through which
humans interact with the world. Hence, it is crucial for a general-purpose
assistant to be able to follow multi-modal speech-and-language instructions. In
this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an
end-to-end trained large multi-modal speech-language model with cross-modal
conversational abilities, capable of following speech-and-language
instructions. Our early experiments show that LLaSM demonstrates a more
convenient and natural way for humans to interact with artificial intelligence.
Specifically, we also release a large Speech Instruction Following dataset
LLaSM-Audio-Instructions. Code and demo are available at
https://github.com/LinkSoul-AI/LLaSM and
https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions
dataset is available at
https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.