Lyra: Un marco eficiente y centrado en el habla para la omni-cognición
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
December 12, 2024
Autores: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
cs.AI
Resumen
A medida que los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) evolucionan, es esencial expandirse más allá de las capacidades de un solo dominio para satisfacer la demanda de una IA más versátil y eficiente. Sin embargo, los omni-modelos anteriores han explorado insuficientemente el habla, descuidando su integración con la multimodalidad. Presentamos Lyra, un MLLM eficiente que mejora las habilidades multimodales, incluyendo la comprensión avanzada de largos discursos, la comprensión del sonido, la eficiencia de la interacción entre modalidades y la interacción de habla fluida. Para lograr eficiencia y capacidades centradas en el habla, Lyra emplea tres estrategias: (1) aprovechar modelos grandes de código abierto existentes y un LoRA de multimodalidad propuesto para reducir costos de entrenamiento y requisitos de datos; (2) utilizar un regularizador y extractor latente de multimodalidad para fortalecer la relación entre el habla y otras modalidades, mejorando así el rendimiento del modelo; y (3) construir un conjunto de datos extenso y de alta calidad que incluye 1.5M de muestras de datos multimodales (lenguaje, visión, audio) y 12K de muestras de largos discursos, lo que permite a Lyra manejar entradas de largos discursos complejos y lograr una cognición omni más robusta. En comparación con otros métodos omni, Lyra logra un rendimiento de vanguardia en varios puntos de referencia de visión-lenguaje, visión-habla y habla-lenguaje, al mismo tiempo que utiliza menos recursos computacionales y menos datos de entrenamiento.
English
As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond
single-domain capabilities is essential to meet the demands for more versatile
and efficient AI. However, previous omni-models have insufficiently explored
speech, neglecting its integration with multi-modality. We introduce Lyra, an
efficient MLLM that enhances multimodal abilities, including advanced
long-speech comprehension, sound understanding, cross-modality efficiency, and
seamless speech interaction. To achieve efficiency and speech-centric
capabilities, Lyra employs three strategies: (1) leveraging existing
open-source large models and a proposed multi-modality LoRA to reduce training
costs and data requirements; (2) using a latent multi-modality regularizer and
extractor to strengthen the relationship between speech and other modalities,
thereby enhancing model performance; and (3) constructing a high-quality,
extensive dataset that includes 1.5M multi-modal (language, vision, audio) data
samples and 12K long speech samples, enabling Lyra to handle complex long
speech inputs and achieve more robust omni-cognition. Compared to other
omni-methods, Lyra achieves state-of-the-art performance on various
vision-language, vision-speech, and speech-language benchmarks, while also
using fewer computational resources and less training data.Summary
AI-Generated Summary