MiDashengLM: Эффективное распознавание аудио с использованием общих аудиоописаний
MiDashengLM: Efficient Audio Understanding with General Audio Captions
August 6, 2025
Авторы: Heinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou
cs.AI
Аннотация
Современные подходы к созданию крупных аудио-языковых моделей (LALMs) часто опираются на закрытые источники данных или проприетарные модели, что ограничивает их обобщаемость и доступность. В данной статье представлена MiDashengLM — новая открытая аудио-языковая модель, разработанная для эффективного и всестороннего понимания аудио с использованием общих аудио-описаний на основе нашего нового набора данных для обучения ACAVCaps. MiDashengLM полностью полагается на общедоступные наборы данных для предварительного обучения и контролируемой тонкой настройки (SFT), обеспечивая полную прозрачность и воспроизводимость. В основе MiDashengLM лежит Dasheng — открытый аудио-кодировщик, специально разработанный для эффективной обработки разнообразной аудиоинформации. В отличие от предыдущих работ, в основном сосредоточенных на выравнивании аудио и текста на основе автоматического распознавания речи (ASR), наша стратегия ориентирована на общие аудио-описания, объединяя информацию о речи, звуках и музыке в одно текстовое представление, что позволяет получить целостное текстовое описание сложных аудиосцен. Наконец, MiDashengLM обеспечивает ускорение до 4 раз по времени до первого токена (TTFT) и до 20 раз более высокую пропускную способность по сравнению с аналогичными моделями. Контрольные точки доступны онлайн по адресам https://huggingface.co/mispeech/midashenglm-7b и https://github.com/xiaomi-research/dasheng-lm.
English
Current approaches for large audio language models (LALMs) often rely on
closed data sources or proprietary models, limiting their generalization and
accessibility. This paper introduces MiDashengLM, a novel open audio-language
model designed for efficient and comprehensive audio understanding through the
use of general audio captions using our novel ACAVCaps training dataset.
MiDashengLM exclusively relies on publicly available pretraining and supervised
fine-tuning (SFT) datasets, ensuring full transparency and reproducibility. At
its core, MiDashengLM integrates Dasheng, an open-source audio encoder,
specifically engineered to process diverse auditory information effectively.
Unlike previous works primarily focused on Automatic Speech Recognition (ASR)
based audio-text alignment, our strategy centers on general audio captions,
fusing speech, sound and music information into one textual representation,
enabling a holistic textual representation of complex audio scenes. Lastly,
MiDashengLM provides an up to 4x speedup in terms of time-to-first-token (TTFT)
and up to 20x higher throughput than comparable models. Checkpoints are
available online at https://huggingface.co/mispeech/midashenglm-7b and
https://github.com/xiaomi-research/dasheng-lm.