Diffusion-Link: Modello Probabilistico di Diffusione per Colmare il Divario Modale Audio-Testo
Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
October 13, 2025
Autori: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
cs.AI
Abstract
Il pre-addestramento contrastivo audio-linguaggio produce rappresentazioni congiunte potenti, tuttavia un persistente divario di modalità audio-testo limita i benefici dell'accoppiamento di encoder multimodali con grandi modelli linguistici (LLM). Presentiamo Diffusion-Link, un modulo di collegamento modale basato su diffusione che mappa generativamente gli embedding audio nella distribuzione degli embedding di testo. Il modulo è addestrato sull'embedding di output dell'encoder multimodale congelato e implementato come una rete leggera con tre blocchi residui MLP. Per valutare l'effetto di Diffusion-Link sull'accoppiamento encoder multimodale-LLM, testiamo su Automatic Audio Captioning (AAC); a nostra conoscenza, questa è la prima applicazione del collegamento modale basato su diffusione all'AAC. Riferiamo due risultati. (1) Analisi del divario modale: su criteri di similarità e geometrici, Diffusion-Link riduce maggiormente il divario modale rispetto ai precedenti metodi basati su diffusione e mostra una migrazione collettiva degli embedding audio verso la distribuzione di testo. (2) AAC downstream: collegando Diffusion-Link alla stessa baseline multimodale LLM si ottengono risultati all'avanguardia su AudioCaps sia in captioning zero-shot che completamente supervisionato senza conoscenza esterna, con guadagni relativi fino al 52,5% e 7,5%, rispettivamente. Questi risultati dimostrano che colmare il divario modale è cruciale per un accoppiamento efficace tra encoder multimodali e LLM, e il collegamento modale basato su diffusione offre una direzione promettente oltre i design centrati sul recupero della conoscenza. Il codice sarà rilasciato all'accettazione https://github.com/DevKiHyun/Diffusion-Link
English
Contrastive audio-language pretraining yields powerful joint representations,
yet a persistent audio-text modality gap limits the benefits of coupling
multimodal encoders with large language models (LLMs). We present
Diffusion-Link, a diffusion-based modality-bridging module that generatively
maps audio embeddings into the text-embedding distribution. The module is
trained at the output embedding from the frozen multimodal encoder and
implemented as a lightweight network with three residual MLP blocks. To assess
the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on
Automatic Audio Captioning (AAC); to our knowledge, this is the first
application of diffusion-based modality bridging to AAC. We report two results.
(1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link
reduces the modality gap the most among prior diffusion-based methods and shows
a collective migration of audio embeddings toward the text distribution. (2)
Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline
achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised
captioning without external knowledge, with relative gains up to 52.5% and
7.5%, respectively. These findings show that closing the modality gap is
pivotal for effective coupling between multimodal encoders and LLMs, and
diffusion-based modality bridging offers a promising direction beyond
knowledge-retrieval-centric designs. Code will be released upon acceptance
https://github.com/DevKiHyun/Diffusion-Link