ChatPaper.aiChatPaper

MiDashengLM : Compréhension audio efficace avec des légendes audio générales

MiDashengLM: Efficient Audio Understanding with General Audio Captions

August 6, 2025
papers.authors: Heinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou
cs.AI

papers.abstract

Les approches actuelles pour les grands modèles de langage audio (LALMs) reposent souvent sur des sources de données fermées ou des modèles propriétaires, limitant ainsi leur généralisation et leur accessibilité. Cet article présente MiDashengLM, un nouveau modèle audio-langage ouvert conçu pour une compréhension audio efficace et complète grâce à l'utilisation de légendes audio générales via notre nouvel ensemble de données d'entraînement ACAVCaps. MiDashengLM s'appuie exclusivement sur des ensembles de données de pré-entraînement et de fine-tuning supervisé (SFT) disponibles publiquement, garantissant une transparence et une reproductibilité totales. Au cœur de MiDashengLM se trouve Dasheng, un encodeur audio open-source, spécifiquement conçu pour traiter efficacement des informations auditives variées. Contrairement aux travaux précédents principalement axés sur l'alignement audio-texte basé sur la reconnaissance automatique de la parole (ASR), notre stratégie se concentre sur les légendes audio générales, fusionnant les informations de parole, de son et de musique en une seule représentation textuelle, permettant ainsi une représentation textuelle holistique de scènes audio complexes. Enfin, MiDashengLM offre une accélération allant jusqu'à 4x en termes de temps jusqu'au premier jeton (TTFT) et un débit jusqu'à 20x supérieur par rapport aux modèles comparables. Les points de contrôle sont disponibles en ligne à l'adresse https://huggingface.co/mispeech/midashenglm-7b et https://github.com/xiaomi-research/dasheng-lm.
English
Current approaches for large audio language models (LALMs) often rely on closed data sources or proprietary models, limiting their generalization and accessibility. This paper introduces MiDashengLM, a novel open audio-language model designed for efficient and comprehensive audio understanding through the use of general audio captions using our novel ACAVCaps training dataset. MiDashengLM exclusively relies on publicly available pretraining and supervised fine-tuning (SFT) datasets, ensuring full transparency and reproducibility. At its core, MiDashengLM integrates Dasheng, an open-source audio encoder, specifically engineered to process diverse auditory information effectively. Unlike previous works primarily focused on Automatic Speech Recognition (ASR) based audio-text alignment, our strategy centers on general audio captions, fusing speech, sound and music information into one textual representation, enabling a holistic textual representation of complex audio scenes. Lastly, MiDashengLM provides an up to 4x speedup in terms of time-to-first-token (TTFT) and up to 20x higher throughput than comparable models. Checkpoints are available online at https://huggingface.co/mispeech/midashenglm-7b and https://github.com/xiaomi-research/dasheng-lm.
PDF52August 7, 2025