ChatPaper.aiChatPaper

Lyra: Een Efficiënt en Spraakgericht Raamwerk voor Alomtegenwoordige Cognitie

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

December 12, 2024
Auteurs: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
cs.AI

Samenvatting

Naarmate Multi-modale Grote Taalmodellen (MLLM's) evolueren, is het essentieel om uit te breiden buiten enkelvoudige domeinmogelijkheden om te voldoen aan de eisen voor meer veelzijdige en efficiënte AI. Echter, eerdere omni-modellen hebben onvoldoende de spraak verkend, waarbij de integratie met multi-modaliteit wordt verwaarloosd. Wij introduceren Lyra, een efficiënt MLLM dat multimodale mogelijkheden verbetert, waaronder geavanceerde lange-spraakbegrip, geluidsinterpretatie, kruis-modaliteitsefficiëntie en naadloze spraakinteractie. Om efficiëntie en spraakgerichte mogelijkheden te bereiken, maakt Lyra gebruik van drie strategieën: (1) gebruikmaking van bestaande open-source grote modellen en een voorgestelde multi-modaliteit LoRA om trainingskosten en data-eisen te verminderen; (2) het gebruik van een latente multi-modaliteit regularisator en extractor om de relatie tussen spraak en andere modaliteiten te versterken, waardoor de modelprestaties worden verbeterd; en (3) het construeren van een hoogwaardige, uitgebreide dataset die 1,5M multi-modale (taal, visie, audio) datasamples en 12K lange spraaksamples bevat, waardoor Lyra complexe lange spraakinvoer kan verwerken en een robuustere omni-cognitie kan bereiken. In vergelijking met andere omni-methoden behaalt Lyra state-of-the-art prestaties op verschillende visie-taal, visie-spraak en spraak-taal benchmarks, terwijl het ook minder rekenbronnen en minder trainingsdata gebruikt.
English
As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.
PDF483December 13, 2024