ChatPaper.aiChatPaper

LLaSM: Модель большого языка и речи

LLaSM: Large Language and Speech Model

August 30, 2023
Авторы: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI

Аннотация

Мультимодальные крупные языковые модели в последнее время вызывают значительный интерес. Однако большинство работ сосредоточено на визуально-языковых мультимодальных моделях, которые демонстрируют высокие способности в выполнении инструкций, связанных с визуальными и языковыми данными. Тем не менее, мы утверждаем, что речь также является важной модальностью, через которую люди взаимодействуют с миром. Следовательно, для универсального ассистента крайне важно уметь выполнять мультимодальные инструкции, связанные с речью и языком. В данной работе мы представляем модель Large Language and Speech Model (LLaSM). LLaSM — это крупная мультимодальная модель, обученная сквозным образом, обладающая кросс-модальными способностями к ведению диалога и способная выполнять инструкции, связанные с речью и языком. Наши предварительные эксперименты показывают, что LLaSM предлагает более удобный и естественный способ взаимодействия человека с искусственным интеллектом. В частности, мы также публикуем крупный набор данных LLaSM-Audio-Instructions, предназначенный для выполнения речевых инструкций. Код и демонстрация доступны по адресам https://github.com/LinkSoul-AI/LLaSM и https://huggingface.co/spaces/LinkSoul/LLaSM. Набор данных LLaSM-Audio-Instructions доступен по адресу https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
PDF342December 15, 2024