LLaSM: Großes Sprach- und Sprachmodell
LLaSM: Large Language and Speech Model
August 30, 2023
Autoren: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle haben in letzter Zeit erhebliches Interesse geweckt. Allerdings konzentrieren sich die meisten Arbeiten auf visuell-sprachliche multimodale Modelle, die starke Fähigkeiten in der Befolgung von visuell-sprachlichen Anweisungen bieten. Wir behaupten jedoch, dass Sprache ebenfalls eine wichtige Modalität ist, über die Menschen mit der Welt interagieren. Daher ist es entscheidend, dass ein allgemeiner Assistent in der Lage ist, multimodale sprachlich-auditive Anweisungen zu befolgen. In dieser Arbeit schlagen wir das Large Language and Speech Model (LLaSM) vor. LLaSM ist ein end-to-end trainiertes großes multimodales Sprach-Sprach-Modell mit fächerübergreifenden Konversationsfähigkeiten, das in der Lage ist, sprachlich-auditive Anweisungen zu befolgen. Unsere ersten Experimente zeigen, dass LLaSM eine bequemere und natürlichere Art der Interaktion zwischen Menschen und künstlicher Intelligenz ermöglicht. Insbesondere veröffentlichen wir auch einen großen Datensatz für die Befolgung von Sprachanweisungen, LLaSM-Audio-Instructions. Code und Demo sind verfügbar unter https://github.com/LinkSoul-AI/LLaSM und https://huggingface.co/spaces/LinkSoul/LLaSM. Der LLaSM-Audio-Instructions-Datensatz ist verfügbar unter https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
English
Multi-modal large language models have garnered significant interest
recently. Though, most of the works focus on vision-language multi-modal models
providing strong capabilities in following vision-and-language instructions.
However, we claim that speech is also an important modality through which
humans interact with the world. Hence, it is crucial for a general-purpose
assistant to be able to follow multi-modal speech-and-language instructions. In
this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an
end-to-end trained large multi-modal speech-language model with cross-modal
conversational abilities, capable of following speech-and-language
instructions. Our early experiments show that LLaSM demonstrates a more
convenient and natural way for humans to interact with artificial intelligence.
Specifically, we also release a large Speech Instruction Following dataset
LLaSM-Audio-Instructions. Code and demo are available at
https://github.com/LinkSoul-AI/LLaSM and
https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions
dataset is available at
https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.