Diffusion-Link: Diffusionswahrscheinlichkeitsmodell zur Überbrückung der Audio-Text-Modalitätslücke
Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
October 13, 2025
papers.authors: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
cs.AI
papers.abstract
Kontrastives Audio-Sprache-Pretraining erzeugt leistungsstarke gemeinsame Repräsentationen, doch eine anhaltende Kluft zwischen den Audio-Text-Modalitäten begrenzt die Vorteile der Kopplung multimodaler Encoder mit großen Sprachmodellen (LLMs). Wir stellen Diffusion-Link vor, ein diffusionsbasiertes Modul zur Überbrückung von Modalitäten, das Audio-Embeddings generativ in die Text-Embedding-Verteilung abbildet. Das Modul wird an den Ausgabe-Embeddings des eingefrorenen multimodalen Encoders trainiert und als leichtgewichtiges Netzwerk mit drei residualen MLP-Blöcken implementiert. Um die Auswirkung von Diffusion-Link auf die Kopplung von multimodalen Encodern und LLMs zu bewerten, evaluieren wir es im Bereich der automatischen Audio-Beschreibung (AAC); unseres Wissens ist dies die erste Anwendung diffusionsbasierter Modalitätsüberbrückung in der AAC. Wir berichten zwei Ergebnisse. (1) Analyse der Modalitätskluft: Diffusion-Link reduziert die Modalitätskluft am stärksten im Vergleich zu früheren diffusionsbasierten Methoden und zeigt eine kollektive Migration von Audio-Embeddings in Richtung der Textverteilung, basierend auf Ähnlichkeits- und geometrischen Kriterien. (2) Downstream-AAC: Die Anbindung von Diffusion-Link an denselben multimodalen LLM-Baseline erreicht State-of-the-Art-Ergebnisse auf AudioCaps sowohl im Zero-Shot- als auch im vollständig überwachten Beschreibungsmodus ohne externes Wissen, mit relativen Gewinnen von bis zu 52,5 % bzw. 7,5 %. Diese Ergebnisse zeigen, dass die Schließung der Modalitätskluft entscheidend für eine effektive Kopplung zwischen multimodalen Encodern und LLMs ist und dass diffusionsbasierte Modalitätsüberbrückung eine vielversprechende Richtung jenseits von wissensbasierten Retrieval-Designs bietet. Der Code wird nach der Annahme veröffentlicht: https://github.com/DevKiHyun/Diffusion-Link.
English
Contrastive audio-language pretraining yields powerful joint representations,
yet a persistent audio-text modality gap limits the benefits of coupling
multimodal encoders with large language models (LLMs). We present
Diffusion-Link, a diffusion-based modality-bridging module that generatively
maps audio embeddings into the text-embedding distribution. The module is
trained at the output embedding from the frozen multimodal encoder and
implemented as a lightweight network with three residual MLP blocks. To assess
the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on
Automatic Audio Captioning (AAC); to our knowledge, this is the first
application of diffusion-based modality bridging to AAC. We report two results.
(1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link
reduces the modality gap the most among prior diffusion-based methods and shows
a collective migration of audio embeddings toward the text distribution. (2)
Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline
achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised
captioning without external knowledge, with relative gains up to 52.5% and
7.5%, respectively. These findings show that closing the modality gap is
pivotal for effective coupling between multimodal encoders and LLMs, and
diffusion-based modality bridging offers a promising direction beyond
knowledge-retrieval-centric designs. Code will be released upon acceptance
https://github.com/DevKiHyun/Diffusion-Link