Diffusion-Link: Diffusie Probabilistisch Model voor het Overbruggen van de Audio-Text Modale Kloof
Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
October 13, 2025
Auteurs: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
cs.AI
Samenvatting
Contrastieve audio-taal voorafgaande training levert krachtige gezamenlijke representaties op,
maar een hardnekkige kloof tussen audio- en tekstmodaliteiten beperkt de voordelen van het koppelen
van multimodale encoders aan grote taalmodellen (LLM's). Wij presenteren
Diffusion-Link, een op diffusie gebaseerde module die de modaliteitskloof overbrugt door
audio-embeddingen generatief in te passen in de tekst-embedding distributie. De module wordt
getraind op de uitvoer-embedding van de bevroren multimodale encoder en
geïmplementeerd als een lichtgewicht netwerk met drie resterende MLP-blokken. Om het effect
van Diffusion-Link op de koppeling van multimodale encoder-LLM te beoordelen, evalueren we op
Automatische Audiobeschrijving (AAC); voor zover wij weten is dit de eerste
toepassing van diffusie-gebaseerde modaliteitsoverbrugging op AAC. We rapporteren twee resultaten.
(1) Analyse van de modaliteitskloof: op basis van gelijkenis- en geometrische criteria vermindert Diffusion-Link
de modaliteitskloof het meest in vergelijking met eerdere diffusie-gebaseerde methoden en toont het
een collectieve migratie van audio-embeddingen naar de tekstdistributie. (2)
Downstream AAC: het toevoegen van Diffusion-Link aan dezelfde multimodale LLM-baseline
behaalt state-of-the-art resultaten op AudioCaps in zowel zero-shot als volledig begeleide
beschrijving zonder externe kennis, met relatieve winsten tot 52,5% en
7,5%, respectievelijk. Deze bevindingen tonen aan dat het dichten van de modaliteitskloof
cruciaal is voor een effectieve koppeling tussen multimodale encoders en LLM's, en
dat diffusie-gebaseerde modaliteitsoverbrugging een veelbelovende richting biedt voorbij
kennis-retrieval-gerichte ontwerpen. Code wordt vrijgegeven na acceptatie
https://github.com/DevKiHyun/Diffusion-Link
English
Contrastive audio-language pretraining yields powerful joint representations,
yet a persistent audio-text modality gap limits the benefits of coupling
multimodal encoders with large language models (LLMs). We present
Diffusion-Link, a diffusion-based modality-bridging module that generatively
maps audio embeddings into the text-embedding distribution. The module is
trained at the output embedding from the frozen multimodal encoder and
implemented as a lightweight network with three residual MLP blocks. To assess
the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on
Automatic Audio Captioning (AAC); to our knowledge, this is the first
application of diffusion-based modality bridging to AAC. We report two results.
(1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link
reduces the modality gap the most among prior diffusion-based methods and shows
a collective migration of audio embeddings toward the text distribution. (2)
Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline
achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised
captioning without external knowledge, with relative gains up to 52.5% and
7.5%, respectively. These findings show that closing the modality gap is
pivotal for effective coupling between multimodal encoders and LLMs, and
diffusion-based modality bridging offers a promising direction beyond
knowledge-retrieval-centric designs. Code will be released upon acceptance
https://github.com/DevKiHyun/Diffusion-Link