ChatPaper.aiChatPaper

Lyra: Ein effizientes und sprachzentriertes Framework für Omni-Kognition

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

December 12, 2024
Autoren: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
cs.AI

Zusammenfassung

Mit der Weiterentwicklung von Multi-modalen Large Language Models (MLLMs) ist es entscheidend, über die Fähigkeiten in einem einzelnen Bereich hinauszugehen, um den Anforderungen nach vielseitigeren und effizienteren KI-Systemen gerecht zu werden. Bisher haben jedoch frühere Omni-Modelle unzureichend die Sprache erforscht und deren Integration in die Multi-Modalität vernachlässigt. Wir stellen Lyra vor, ein effizientes MLLM, das die multimodalen Fähigkeiten verbessert, einschließlich fortgeschrittener Sprachverständnis, Klangverarbeitung, Effizienz in der Kreuzmodalität und nahtloser Sprachinteraktion. Um Effizienz und sprachzentrierte Fähigkeiten zu erreichen, setzt Lyra drei Strategien ein: (1) Nutzung bestehender Open-Source großer Modelle und eines vorgeschlagenen Multi-Modalitäts-LoRA zur Reduzierung der Schulungskosten und Datenanforderungen; (2) Verwendung eines latenten Multi-Modalitäts-Regularisierers und Extraktors zur Stärkung der Beziehung zwischen Sprache und anderen Modalitäten, um die Leistung des Modells zu verbessern; und (3) Erstellung eines hochwertigen, umfangreichen Datensatzes, der 1,5 Millionen Multi-Modale (Sprache, Vision, Audio) Datensamples und 12.000 lange Sprachsamples umfasst, um Lyra in die Lage zu versetzen, komplexe lange Spracheingaben zu verarbeiten und eine robustere Omni-Kognition zu erreichen. Im Vergleich zu anderen Omni-Methoden erzielt Lyra Spitzenleistungen in verschiedenen Vision-Sprache-, Vision-Sprach- und Sprache-Sprache-Benchmarks, während gleichzeitig weniger Rechenressourcen und Schulungsdaten verwendet werden.
English
As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.

Summary

AI-Generated Summary

PDF493December 13, 2024