Diffusion-Link: Diffusie Probabilistisch Model voor het Overbruggen van de Audio-Text Modale Kloof

Samenvatting

Contrastieve audio-taal voorafgaande training levert krachtige gezamenlijke representaties op, maar een hardnekkige kloof tussen audio- en tekstmodaliteiten beperkt de voordelen van het koppelen van multimodale encoders aan grote taalmodellen (LLM's). Wij presenteren Diffusion-Link, een op diffusie gebaseerde module die de modaliteitskloof overbrugt door audio-embeddingen generatief in te passen in de tekst-embedding distributie. De module wordt getraind op de uitvoer-embedding van de bevroren multimodale encoder en geïmplementeerd als een lichtgewicht netwerk met drie resterende MLP-blokken. Om het effect van Diffusion-Link op de koppeling van multimodale encoder-LLM te beoordelen, evalueren we op Automatische Audiobeschrijving (AAC); voor zover wij weten is dit de eerste toepassing van diffusie-gebaseerde modaliteitsoverbrugging op AAC. We rapporteren twee resultaten. (1) Analyse van de modaliteitskloof: op basis van gelijkenis- en geometrische criteria vermindert Diffusion-Link de modaliteitskloof het meest in vergelijking met eerdere diffusie-gebaseerde methoden en toont het een collectieve migratie van audio-embeddingen naar de tekstdistributie. (2) Downstream AAC: het toevoegen van Diffusion-Link aan dezelfde multimodale LLM-baseline behaalt state-of-the-art resultaten op AudioCaps in zowel zero-shot als volledig begeleide beschrijving zonder externe kennis, met relatieve winsten tot 52,5% en 7,5%, respectievelijk. Deze bevindingen tonen aan dat het dichten van de modaliteitskloof cruciaal is voor een effectieve koppeling tussen multimodale encoders en LLM's, en dat diffusie-gebaseerde modaliteitsoverbrugging een veelbelovende richting biedt voorbij kennis-retrieval-gerichte ontwerpen. Code wordt vrijgegeven na acceptatie https://github.com/DevKiHyun/Diffusion-Link

English

Contrastive audio-language pretraining yields powerful joint representations, yet a persistent audio-text modality gap limits the benefits of coupling multimodal encoders with large language models (LLMs). We present Diffusion-Link, a diffusion-based modality-bridging module that generatively maps audio embeddings into the text-embedding distribution. The module is trained at the output embedding from the frozen multimodal encoder and implemented as a lightweight network with three residual MLP blocks. To assess the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on Automatic Audio Captioning (AAC); to our knowledge, this is the first application of diffusion-based modality bridging to AAC. We report two results. (1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link reduces the modality gap the most among prior diffusion-based methods and shows a collective migration of audio embeddings toward the text distribution. (2) Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised captioning without external knowledge, with relative gains up to 52.5% and 7.5%, respectively. These findings show that closing the modality gap is pivotal for effective coupling between multimodal encoders and LLMs, and diffusion-based modality bridging offers a promising direction beyond knowledge-retrieval-centric designs. Code will be released upon acceptance https://github.com/DevKiHyun/Diffusion-Link

Diffusion-Link: Diffusie Probabilistisch Model voor het Overbruggen van de Audio-Text Modale Kloof

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

Samenvatting

Support