Lyra: Um Framework Eficiente e Centrado em Fala para Omni-Cognição
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
December 12, 2024
Autores: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
cs.AI
Resumo
À medida que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) evoluem, expandir além das capacidades de um único domínio é essencial para atender às demandas por uma IA mais versátil e eficiente. No entanto, os modelos omni anteriores exploraram insuficientemente a fala, negligenciando sua integração com a multimodalidade. Apresentamos o Lyra, um MLLM eficiente que aprimora as habilidades multimodais, incluindo compreensão avançada de longas falas, compreensão de áudio, eficiência de cruzamento de modalidades e interação de fala contínua. Para alcançar eficiência e capacidades centradas na fala, o Lyra emprega três estratégias: (1) aproveitando modelos grandes de código aberto existentes e um LoRA de multimodalidade proposto para reduzir custos de treinamento e requisitos de dados; (2) utilizando um regularizador e extrator latente de multimodalidade para fortalecer a relação entre a fala e outras modalidades, melhorando assim o desempenho do modelo; e (3) construindo um conjunto de dados extenso e de alta qualidade que inclui 1,5 milhão de amostras de dados multimodais (linguagem, visão, áudio) e 12 mil amostras de longas falas, permitindo que o Lyra lide com entradas de longas falas complexas e alcance uma cognição omni mais robusta. Comparado a outros métodos omni, o Lyra alcança um desempenho de ponta em vários benchmarks de visão-linguagem, visão-fala e fala-linguagem, enquanto também utiliza menos recursos computacionais e menos dados de treinamento.
English
As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond
single-domain capabilities is essential to meet the demands for more versatile
and efficient AI. However, previous omni-models have insufficiently explored
speech, neglecting its integration with multi-modality. We introduce Lyra, an
efficient MLLM that enhances multimodal abilities, including advanced
long-speech comprehension, sound understanding, cross-modality efficiency, and
seamless speech interaction. To achieve efficiency and speech-centric
capabilities, Lyra employs three strategies: (1) leveraging existing
open-source large models and a proposed multi-modality LoRA to reduce training
costs and data requirements; (2) using a latent multi-modality regularizer and
extractor to strengthen the relationship between speech and other modalities,
thereby enhancing model performance; and (3) constructing a high-quality,
extensive dataset that includes 1.5M multi-modal (language, vision, audio) data
samples and 12K long speech samples, enabling Lyra to handle complex long
speech inputs and achieve more robust omni-cognition. Compared to other
omni-methods, Lyra achieves state-of-the-art performance on various
vision-language, vision-speech, and speech-language benchmarks, while also
using fewer computational resources and less training data.Summary
AI-Generated Summary