ChatPaper.aiChatPaper

Lyra : un cadre efficace et centré sur la parole pour l'omni-cognition

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

December 12, 2024
Auteurs: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
cs.AI

Résumé

Alors que les Modèles de Langage Multi-Modaux (MLLMs) évoluent, il est essentiel de développer des capacités au-delà d'un seul domaine pour répondre à la demande croissante d'une IA plus polyvalente et efficace. Cependant, les omni-modèles précédents ont insuffisamment exploré la parole, négligeant son intégration avec la multi-modalité. Nous présentons Lyra, un MLLM efficace qui améliore les capacités multi-modales, y compris la compréhension avancée des longues conversations, la compréhension du son, l'efficacité inter-modale et l'interaction vocale fluide. Pour atteindre l'efficacité et les capacités centrées sur la parole, Lyra utilise trois stratégies : (1) en tirant parti des modèles larges open-source existants et d'un LoRA multi-modal proposé pour réduire les coûts de formation et les besoins en données ; (2) en utilisant un régulariseur et extracteur latent multi-modal pour renforcer la relation entre la parole et les autres modalités, améliorant ainsi les performances du modèle ; et (3) en construisant un ensemble de données de haute qualité et étendu comprenant 1,5 million d'échantillons de données multi-modaux (langage, vision, audio) et 12 000 échantillons de longues conversations, permettant à Lyra de traiter des entrées de longues conversations complexes et d'atteindre une cognition omni plus robuste. Comparé à d'autres méthodes omni, Lyra atteint des performances de pointe sur divers benchmarks de vision-langage, vision-parole et parole-langage, tout en utilisant moins de ressources computationnelles et moins de données d'entraînement.
English
As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.

Summary

AI-Generated Summary

PDF493December 13, 2024