ChatPaper.aiChatPaper

Лира: эффективная и ориентированная на речь платформа для всепонимания

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

December 12, 2024
Авторы: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
cs.AI

Аннотация

По мере развития многофункциональных крупных языковых моделей (MLLM), расширение их возможностей за пределы одной области становится необходимым для удовлетворения требований к более универсальному и эффективному искусственному интеллекту. Однако ранее созданные всемодельные модели недостаточно исследовали речь, игнорируя ее интеграцию с мульти-модальностью. Мы представляем Lyra, эффективную MLLM, которая улучшает мульти-модальные способности, включая продвинутое понимание длинной речи, понимание звука, эффективность между модальностями и беспрепятственное взаимодействие с речью. Для достижения эффективности и способностей к обработке речи Lyra использует три стратегии: (1) использование существующих крупных моделей с открытым исходным кодом и предложенной мульти-модальной LoRA для снижения затрат на обучение и требований к данным; (2) применение латентного регуляризатора и экстрактора мульти-модальности для укрепления связи между речью и другими модальностями, тем самым улучшая производительность модели; и (3) создание высококачественного обширного набора данных, включающего 1,5 млн мульти-модальных (язык, зрение, аудио) образцов данных и 12 тыс. образцов длинной речи, что позволяет Lyra обрабатывать сложные входы длинной речи и достигать более надежного всепонимания. По сравнению с другими всеметодными подходами, Lyra достигает передовой производительности на различных бенчмарках язык-зрение, зрение-речь и речь-язык, при этом используя меньше вычислительных ресурсов и меньше данных для обучения.
English
As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.

Summary

AI-Generated Summary

PDF493December 13, 2024