LLaSM: Модель большого языка и речи
LLaSM: Large Language and Speech Model
August 30, 2023
Авторы: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI
Аннотация
Мультимодальные крупные языковые модели в последнее время вызывают значительный интерес. Однако большинство работ сосредоточено на визуально-языковых мультимодальных моделях, которые демонстрируют высокие способности в выполнении инструкций, связанных с визуальными и языковыми данными. Тем не менее, мы утверждаем, что речь также является важной модальностью, через которую люди взаимодействуют с миром. Следовательно, для универсального ассистента крайне важно уметь выполнять мультимодальные инструкции, связанные с речью и языком. В данной работе мы представляем модель Large Language and Speech Model (LLaSM). LLaSM — это крупная мультимодальная модель, обученная сквозным образом, обладающая кросс-модальными способностями к ведению диалога и способная выполнять инструкции, связанные с речью и языком. Наши предварительные эксперименты показывают, что LLaSM предлагает более удобный и естественный способ взаимодействия человека с искусственным интеллектом. В частности, мы также публикуем крупный набор данных LLaSM-Audio-Instructions, предназначенный для выполнения речевых инструкций. Код и демонстрация доступны по адресам https://github.com/LinkSoul-AI/LLaSM и https://huggingface.co/spaces/LinkSoul/LLaSM. Набор данных LLaSM-Audio-Instructions доступен по адресу https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest
recently. Though, most of the works focus on vision-language multi-modal models
providing strong capabilities in following vision-and-language instructions.
However, we claim that speech is also an important modality through which
humans interact with the world. Hence, it is crucial for a general-purpose
assistant to be able to follow multi-modal speech-and-language instructions. In
this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an
end-to-end trained large multi-modal speech-language model with cross-modal
conversational abilities, capable of following speech-and-language
instructions. Our early experiments show that LLaSM demonstrates a more
convenient and natural way for humans to interact with artificial intelligence.
Specifically, we also release a large Speech Instruction Following dataset
LLaSM-Audio-Instructions. Code and demo are available at
https://github.com/LinkSoul-AI/LLaSM and
https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions
dataset is available at
https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.