LLaSM: Modelo de Lenguaje y Habla a Gran Escala

Resumen

Los modelos de lenguaje multimodal de gran escala han generado un interés significativo recientemente. Sin embargo, la mayoría de los trabajos se centran en modelos multimodales de visión y lenguaje, ofreciendo capacidades sólidas para seguir instrucciones que combinan visión y lenguaje. No obstante, sostenemos que el habla también es una modalidad importante a través de la cual los humanos interactúan con el mundo. Por lo tanto, es crucial que un asistente de propósito general sea capaz de seguir instrucciones multimodales que combinen habla y lenguaje. En este trabajo, proponemos el Modelo de Lenguaje y Habla de Gran Escala (LLaSM, por sus siglas en inglés). LLaSM es un modelo multimodal de gran escala entrenado de extremo a extremo con capacidades conversacionales entre modalidades, capaz de seguir instrucciones que combinan habla y lenguaje. Nuestros primeros experimentos muestran que LLaSM ofrece una forma más conveniente y natural para que los humanos interactúen con la inteligencia artificial. Específicamente, también publicamos un gran conjunto de datos de Seguimiento de Instrucciones de Habla, denominado LLaSM-Audio-Instructions. El código y la demostración están disponibles en https://github.com/LinkSoul-AI/LLaSM y https://huggingface.co/spaces/LinkSoul/LLaSM. El conjunto de datos LLaSM-Audio-Instructions está disponible en https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.

English

Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.

LLaSM: Modelo de Lenguaje y Habla a Gran Escala

LLaSM: Large Language and Speech Model

Resumen

Support