ChatPaper.aiChatPaper

LLaSM: Großes Sprach- und Sprachmodell

LLaSM: Large Language and Speech Model

August 30, 2023
Autoren: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI

Zusammenfassung

Multimodale große Sprachmodelle haben in letzter Zeit erhebliches Interesse geweckt. Allerdings konzentrieren sich die meisten Arbeiten auf visuell-sprachliche multimodale Modelle, die starke Fähigkeiten in der Befolgung von visuell-sprachlichen Anweisungen bieten. Wir behaupten jedoch, dass Sprache ebenfalls eine wichtige Modalität ist, über die Menschen mit der Welt interagieren. Daher ist es entscheidend, dass ein allgemeiner Assistent in der Lage ist, multimodale sprachlich-auditive Anweisungen zu befolgen. In dieser Arbeit schlagen wir das Large Language and Speech Model (LLaSM) vor. LLaSM ist ein end-to-end trainiertes großes multimodales Sprach-Sprach-Modell mit fächerübergreifenden Konversationsfähigkeiten, das in der Lage ist, sprachlich-auditive Anweisungen zu befolgen. Unsere ersten Experimente zeigen, dass LLaSM eine bequemere und natürlichere Art der Interaktion zwischen Menschen und künstlicher Intelligenz ermöglicht. Insbesondere veröffentlichen wir auch einen großen Datensatz für die Befolgung von Sprachanweisungen, LLaSM-Audio-Instructions. Code und Demo sind verfügbar unter https://github.com/LinkSoul-AI/LLaSM und https://huggingface.co/spaces/LinkSoul/LLaSM. Der LLaSM-Audio-Instructions-Datensatz ist verfügbar unter https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
PDF342December 15, 2024