ChatPaper.aiChatPaper

Diffusion-Link: Диффузионная вероятностная модель для преодоления разрыва между аудио-текстовыми модальностями

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

October 13, 2025
Авторы: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
cs.AI

Аннотация

Контрастное предварительное обучение на аудио-текстовых данных позволяет получать мощные совместные представления, однако сохраняющийся разрыв между модальностями аудио и текста ограничивает преимущества связывания мультимодальных кодировщиков с большими языковыми моделями (LLM). Мы представляем Diffusion-Link — модуль для преодоления разрыва между модальностями, основанный на диффузии, который генеративно отображает аудио-эмбеддинги в распределение текстовых эмбеддингов. Этот модуль обучается на выходных эмбеддингах замороженного мультимодального кодировщика и реализован в виде легковесной сети с тремя остаточными блоками MLP. Чтобы оценить влияние Diffusion-Link на связывание мультимодального кодировщика с LLM, мы проводим эксперименты на задаче автоматического создания аудио-описаний (AAC); насколько нам известно, это первое применение диффузионного подхода для преодоления разрыва между модальностями в AAC. Мы представляем два результата. (1) Анализ разрыва между модальностями: по критериям сходства и геометрическим характеристикам Diffusion-Link наиболее эффективно сокращает разрыв между модальностями среди существующих диффузионных методов и демонстрирует коллективное смещение аудио-эмбеддингов в сторону текстового распределения. (2) Применение в AAC: добавление Diffusion-Link к той же базовой мультимодальной LLM достигает наилучших результатов на AudioCaps как в условиях zero-shot, так и в полностью контролируемом создании описаний без использования внешних знаний, с относительным улучшением до 52,5% и 7,5% соответственно. Эти результаты показывают, что устранение разрыва между модальностями имеет ключевое значение для эффективного связывания мультимодальных кодировщиков и LLM, а диффузионный подход для преодоления разрыва предлагает перспективное направление, выходящее за рамки решений, ориентированных на извлечение знаний. Код будет опубликован после принятия статьи: https://github.com/DevKiHyun/Diffusion-Link.
English
Contrastive audio-language pretraining yields powerful joint representations, yet a persistent audio-text modality gap limits the benefits of coupling multimodal encoders with large language models (LLMs). We present Diffusion-Link, a diffusion-based modality-bridging module that generatively maps audio embeddings into the text-embedding distribution. The module is trained at the output embedding from the frozen multimodal encoder and implemented as a lightweight network with three residual MLP blocks. To assess the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on Automatic Audio Captioning (AAC); to our knowledge, this is the first application of diffusion-based modality bridging to AAC. We report two results. (1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link reduces the modality gap the most among prior diffusion-based methods and shows a collective migration of audio embeddings toward the text distribution. (2) Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised captioning without external knowledge, with relative gains up to 52.5% and 7.5%, respectively. These findings show that closing the modality gap is pivotal for effective coupling between multimodal encoders and LLMs, and diffusion-based modality bridging offers a promising direction beyond knowledge-retrieval-centric designs. Code will be released upon acceptance https://github.com/DevKiHyun/Diffusion-Link
PDF12October 15, 2025