ChatPaper.aiChatPaper

Diffusion-Link : Modèle probabiliste de diffusion pour combler l'écart de modalité audio-texte

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

October 13, 2025
papers.authors: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
cs.AI

papers.abstract

Le pré-entraînement contrastif audio-langage produit des représentations conjointes puissantes, mais un écart persistant entre les modalités audio et texte limite les avantages du couplage des encodeurs multimodaux avec les grands modèles de langage (LLM). Nous présentons Diffusion-Link, un module de pontage de modalités basé sur la diffusion qui cartographie générativement les embeddings audio dans la distribution des embeddings texte. Ce module est entraîné sur l'embedding de sortie de l'encodeur multimodal figé et implémenté comme un réseau léger composé de trois blocs MLP résiduels. Pour évaluer l'effet de Diffusion-Link sur le couplage entre encodeur multimodal et LLM, nous testons sur la tâche de Description Automatique Audio (AAC) ; à notre connaissance, il s'agit de la première application d'un pontage de modalités basé sur la diffusion à l'AAC. Nous rapportons deux résultats. (1) Analyse de l'écart de modalité : sur des critères de similarité et géométriques, Diffusion-Link réduit davantage l'écart de modalité par rapport aux méthodes antérieures basées sur la diffusion et montre une migration collective des embeddings audio vers la distribution texte. (2) AAC en aval : l'ajout de Diffusion-Link au même modèle de base multimodal LLM atteint l'état de l'art sur AudioCaps, à la fois en description zéro-shot et entièrement supervisée, sans connaissances externes, avec des gains relatifs allant jusqu'à 52,5 % et 7,5 %, respectivement. Ces résultats montrent que la réduction de l'écart de modalité est cruciale pour un couplage efficace entre encodeurs multimodaux et LLM, et que le pontage de modalités basé sur la diffusion offre une voie prometteuse au-delà des conceptions centrées sur la récupération de connaissances. Le code sera publié après acceptation https://github.com/DevKiHyun/Diffusion-Link.
English
Contrastive audio-language pretraining yields powerful joint representations, yet a persistent audio-text modality gap limits the benefits of coupling multimodal encoders with large language models (LLMs). We present Diffusion-Link, a diffusion-based modality-bridging module that generatively maps audio embeddings into the text-embedding distribution. The module is trained at the output embedding from the frozen multimodal encoder and implemented as a lightweight network with three residual MLP blocks. To assess the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on Automatic Audio Captioning (AAC); to our knowledge, this is the first application of diffusion-based modality bridging to AAC. We report two results. (1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link reduces the modality gap the most among prior diffusion-based methods and shows a collective migration of audio embeddings toward the text distribution. (2) Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised captioning without external knowledge, with relative gains up to 52.5% and 7.5%, respectively. These findings show that closing the modality gap is pivotal for effective coupling between multimodal encoders and LLMs, and diffusion-based modality bridging offers a promising direction beyond knowledge-retrieval-centric designs. Code will be released upon acceptance https://github.com/DevKiHyun/Diffusion-Link
PDF12October 15, 2025