Lyra: Un marco eficiente y centrado en el habla para la omni-cognición

Resumen

A medida que los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) evolucionan, es esencial expandirse más allá de las capacidades de un solo dominio para satisfacer la demanda de una IA más versátil y eficiente. Sin embargo, los omni-modelos anteriores han explorado insuficientemente el habla, descuidando su integración con la multimodalidad. Presentamos Lyra, un MLLM eficiente que mejora las habilidades multimodales, incluyendo la comprensión avanzada de largos discursos, la comprensión del sonido, la eficiencia de la interacción entre modalidades y la interacción de habla fluida. Para lograr eficiencia y capacidades centradas en el habla, Lyra emplea tres estrategias: (1) aprovechar modelos grandes de código abierto existentes y un LoRA de multimodalidad propuesto para reducir costos de entrenamiento y requisitos de datos; (2) utilizar un regularizador y extractor latente de multimodalidad para fortalecer la relación entre el habla y otras modalidades, mejorando así el rendimiento del modelo; y (3) construir un conjunto de datos extenso y de alta calidad que incluye 1.5M de muestras de datos multimodales (lenguaje, visión, audio) y 12K de muestras de largos discursos, lo que permite a Lyra manejar entradas de largos discursos complejos y lograr una cognición omni más robusta. En comparación con otros métodos omni, Lyra logra un rendimiento de vanguardia en varios puntos de referencia de visión-lenguaje, visión-habla y habla-lenguaje, al mismo tiempo que utiliza menos recursos computacionales y menos datos de entrenamiento.

English

As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.

Lyra: Un marco eficiente y centrado en el habla para la omni-cognición

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Resumen

Support