Lyra: Um Framework Eficiente e Centrado em Fala para Omni-Cognição

Resumo

À medida que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) evoluem, expandir além das capacidades de um único domínio é essencial para atender às demandas por uma IA mais versátil e eficiente. No entanto, os modelos omni anteriores exploraram insuficientemente a fala, negligenciando sua integração com a multimodalidade. Apresentamos o Lyra, um MLLM eficiente que aprimora as habilidades multimodais, incluindo compreensão avançada de longas falas, compreensão de áudio, eficiência de cruzamento de modalidades e interação de fala contínua. Para alcançar eficiência e capacidades centradas na fala, o Lyra emprega três estratégias: (1) aproveitando modelos grandes de código aberto existentes e um LoRA de multimodalidade proposto para reduzir custos de treinamento e requisitos de dados; (2) utilizando um regularizador e extrator latente de multimodalidade para fortalecer a relação entre a fala e outras modalidades, melhorando assim o desempenho do modelo; e (3) construindo um conjunto de dados extenso e de alta qualidade que inclui 1,5 milhão de amostras de dados multimodais (linguagem, visão, áudio) e 12 mil amostras de longas falas, permitindo que o Lyra lide com entradas de longas falas complexas e alcance uma cognição omni mais robusta. Comparado a outros métodos omni, o Lyra alcança um desempenho de ponta em vários benchmarks de visão-linguagem, visão-fala e fala-linguagem, enquanto também utiliza menos recursos computacionais e menos dados de treinamento.

English

As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.

Lyra: Um Framework Eficiente e Centrado em Fala para Omni-Cognição

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Resumo

Summary

Support

Support