Diffusion-Link: Modelo Probabilístico de Difusão para Reduzir a Lacuna entre as Modalidades de Áudio e Texto
Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
October 13, 2025
Autores: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
cs.AI
Resumo
O pré-treinamento contrastivo áudio-linguagem produz representações conjuntas poderosas, mas uma lacuna persistente entre as modalidades de áudio e texto limita os benefícios do acoplamento de codificadores multimodais com grandes modelos de linguagem (LLMs). Apresentamos o Diffusion-Link, um módulo de ponte entre modalidades baseado em difusão que mapeia gerativamente embeddings de áudio para a distribuição de embeddings de texto. O módulo é treinado no embedding de saída do codificador multimodal congelado e implementado como uma rede leve com três blocos residuais de MLP. Para avaliar o efeito do Diffusion-Link no acoplamento de codificadores multimodais com LLMs, avaliamos na tarefa de Geração Automática de Legendas de Áudio (AAC); até onde sabemos, esta é a primeira aplicação de ponte entre modalidades baseada em difusão para AAC. Reportamos dois resultados. (1) Análise da lacuna entre modalidades: em critérios de similaridade e geométricos, o Diffusion-Link reduz a lacuna entre modalidades mais do que métodos anteriores baseados em difusão e mostra uma migração coletiva de embeddings de áudio em direção à distribuição de texto. (2) AAC downstream: ao acoplar o Diffusion-Link à mesma linha de base de LLM multimodal, alcançamos o estado da arte no AudioCaps tanto em legendagem zero-shot quanto totalmente supervisionada, sem conhecimento externo, com ganhos relativos de até 52,5% e 7,5%, respectivamente. Esses achados mostram que fechar a lacuna entre modalidades é crucial para um acoplamento eficaz entre codificadores multimodais e LLMs, e a ponte entre modalidades baseada em difusão oferece uma direção promissora além de designs centrados em recuperação de conhecimento. O código será liberado após a aceitação https://github.com/DevKiHyun/Diffusion-Link.
English
Contrastive audio-language pretraining yields powerful joint representations,
yet a persistent audio-text modality gap limits the benefits of coupling
multimodal encoders with large language models (LLMs). We present
Diffusion-Link, a diffusion-based modality-bridging module that generatively
maps audio embeddings into the text-embedding distribution. The module is
trained at the output embedding from the frozen multimodal encoder and
implemented as a lightweight network with three residual MLP blocks. To assess
the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on
Automatic Audio Captioning (AAC); to our knowledge, this is the first
application of diffusion-based modality bridging to AAC. We report two results.
(1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link
reduces the modality gap the most among prior diffusion-based methods and shows
a collective migration of audio embeddings toward the text distribution. (2)
Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline
achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised
captioning without external knowledge, with relative gains up to 52.5% and
7.5%, respectively. These findings show that closing the modality gap is
pivotal for effective coupling between multimodal encoders and LLMs, and
diffusion-based modality bridging offers a promising direction beyond
knowledge-retrieval-centric designs. Code will be released upon acceptance
https://github.com/DevKiHyun/Diffusion-Link