Diffusion-Link: Modelo Probabilístico de Difusão para Reduzir a Lacuna entre as Modalidades de Áudio e Texto

Resumo

O pré-treinamento contrastivo áudio-linguagem produz representações conjuntas poderosas, mas uma lacuna persistente entre as modalidades de áudio e texto limita os benefícios do acoplamento de codificadores multimodais com grandes modelos de linguagem (LLMs). Apresentamos o Diffusion-Link, um módulo de ponte entre modalidades baseado em difusão que mapeia gerativamente embeddings de áudio para a distribuição de embeddings de texto. O módulo é treinado no embedding de saída do codificador multimodal congelado e implementado como uma rede leve com três blocos residuais de MLP. Para avaliar o efeito do Diffusion-Link no acoplamento de codificadores multimodais com LLMs, avaliamos na tarefa de Geração Automática de Legendas de Áudio (AAC); até onde sabemos, esta é a primeira aplicação de ponte entre modalidades baseada em difusão para AAC. Reportamos dois resultados. (1) Análise da lacuna entre modalidades: em critérios de similaridade e geométricos, o Diffusion-Link reduz a lacuna entre modalidades mais do que métodos anteriores baseados em difusão e mostra uma migração coletiva de embeddings de áudio em direção à distribuição de texto. (2) AAC downstream: ao acoplar o Diffusion-Link à mesma linha de base de LLM multimodal, alcançamos o estado da arte no AudioCaps tanto em legendagem zero-shot quanto totalmente supervisionada, sem conhecimento externo, com ganhos relativos de até 52,5% e 7,5%, respectivamente. Esses achados mostram que fechar a lacuna entre modalidades é crucial para um acoplamento eficaz entre codificadores multimodais e LLMs, e a ponte entre modalidades baseada em difusão oferece uma direção promissora além de designs centrados em recuperação de conhecimento. O código será liberado após a aceitação https://github.com/DevKiHyun/Diffusion-Link.

English

Contrastive audio-language pretraining yields powerful joint representations, yet a persistent audio-text modality gap limits the benefits of coupling multimodal encoders with large language models (LLMs). We present Diffusion-Link, a diffusion-based modality-bridging module that generatively maps audio embeddings into the text-embedding distribution. The module is trained at the output embedding from the frozen multimodal encoder and implemented as a lightweight network with three residual MLP blocks. To assess the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on Automatic Audio Captioning (AAC); to our knowledge, this is the first application of diffusion-based modality bridging to AAC. We report two results. (1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link reduces the modality gap the most among prior diffusion-based methods and shows a collective migration of audio embeddings toward the text distribution. (2) Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised captioning without external knowledge, with relative gains up to 52.5% and 7.5%, respectively. These findings show that closing the modality gap is pivotal for effective coupling between multimodal encoders and LLMs, and diffusion-based modality bridging offers a promising direction beyond knowledge-retrieval-centric designs. Code will be released upon acceptance https://github.com/DevKiHyun/Diffusion-Link

Diffusion-Link: Modelo Probabilístico de Difusão para Reduzir a Lacuna entre as Modalidades de Áudio e Texto

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

Resumo

Support