ChatPaper.aiChatPaper

Lyra: Um Framework Eficiente e Centrado em Fala para Omni-Cognição

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

December 12, 2024
Autores: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
cs.AI

Resumo

À medida que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) evoluem, expandir além das capacidades de um único domínio é essencial para atender às demandas por uma IA mais versátil e eficiente. No entanto, os modelos omni anteriores exploraram insuficientemente a fala, negligenciando sua integração com a multimodalidade. Apresentamos o Lyra, um MLLM eficiente que aprimora as habilidades multimodais, incluindo compreensão avançada de longas falas, compreensão de áudio, eficiência de cruzamento de modalidades e interação de fala contínua. Para alcançar eficiência e capacidades centradas na fala, o Lyra emprega três estratégias: (1) aproveitando modelos grandes de código aberto existentes e um LoRA de multimodalidade proposto para reduzir custos de treinamento e requisitos de dados; (2) utilizando um regularizador e extrator latente de multimodalidade para fortalecer a relação entre a fala e outras modalidades, melhorando assim o desempenho do modelo; e (3) construindo um conjunto de dados extenso e de alta qualidade que inclui 1,5 milhão de amostras de dados multimodais (linguagem, visão, áudio) e 12 mil amostras de longas falas, permitindo que o Lyra lide com entradas de longas falas complexas e alcance uma cognição omni mais robusta. Comparado a outros métodos omni, o Lyra alcança um desempenho de ponta em vários benchmarks de visão-linguagem, visão-fala e fala-linguagem, enquanto também utiliza menos recursos computacionais e menos dados de treinamento.
English
As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.

Summary

AI-Generated Summary

PDF493December 13, 2024