Lyra: Ein effizientes und sprachzentriertes Framework für Omni-Kognition
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
December 12, 2024
Autoren: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
cs.AI
Zusammenfassung
Mit der Weiterentwicklung von Multi-modalen Large Language Models (MLLMs) ist es entscheidend, über die Fähigkeiten in einem einzelnen Bereich hinauszugehen, um den Anforderungen nach vielseitigeren und effizienteren KI-Systemen gerecht zu werden. Bisher haben jedoch frühere Omni-Modelle unzureichend die Sprache erforscht und deren Integration in die Multi-Modalität vernachlässigt. Wir stellen Lyra vor, ein effizientes MLLM, das die multimodalen Fähigkeiten verbessert, einschließlich fortgeschrittener Sprachverständnis, Klangverarbeitung, Effizienz in der Kreuzmodalität und nahtloser Sprachinteraktion. Um Effizienz und sprachzentrierte Fähigkeiten zu erreichen, setzt Lyra drei Strategien ein: (1) Nutzung bestehender Open-Source großer Modelle und eines vorgeschlagenen Multi-Modalitäts-LoRA zur Reduzierung der Schulungskosten und Datenanforderungen; (2) Verwendung eines latenten Multi-Modalitäts-Regularisierers und Extraktors zur Stärkung der Beziehung zwischen Sprache und anderen Modalitäten, um die Leistung des Modells zu verbessern; und (3) Erstellung eines hochwertigen, umfangreichen Datensatzes, der 1,5 Millionen Multi-Modale (Sprache, Vision, Audio) Datensamples und 12.000 lange Sprachsamples umfasst, um Lyra in die Lage zu versetzen, komplexe lange Spracheingaben zu verarbeiten und eine robustere Omni-Kognition zu erreichen. Im Vergleich zu anderen Omni-Methoden erzielt Lyra Spitzenleistungen in verschiedenen Vision-Sprache-, Vision-Sprach- und Sprache-Sprache-Benchmarks, während gleichzeitig weniger Rechenressourcen und Schulungsdaten verwendet werden.
English
As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond
single-domain capabilities is essential to meet the demands for more versatile
and efficient AI. However, previous omni-models have insufficiently explored
speech, neglecting its integration with multi-modality. We introduce Lyra, an
efficient MLLM that enhances multimodal abilities, including advanced
long-speech comprehension, sound understanding, cross-modality efficiency, and
seamless speech interaction. To achieve efficiency and speech-centric
capabilities, Lyra employs three strategies: (1) leveraging existing
open-source large models and a proposed multi-modality LoRA to reduce training
costs and data requirements; (2) using a latent multi-modality regularizer and
extractor to strengthen the relationship between speech and other modalities,
thereby enhancing model performance; and (3) constructing a high-quality,
extensive dataset that includes 1.5M multi-modal (language, vision, audio) data
samples and 12K long speech samples, enabling Lyra to handle complex long
speech inputs and achieve more robust omni-cognition. Compared to other
omni-methods, Lyra achieves state-of-the-art performance on various
vision-language, vision-speech, and speech-language benchmarks, while also
using fewer computational resources and less training data.Summary
AI-Generated Summary