ChatPaper.aiChatPaper

Diffusion-Link: Modelo Probabilístico de Difusión para Reducir la Brecha de Modalidad entre Audio y Texto

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

October 13, 2025
Autores: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
cs.AI

Resumen

El preentrenamiento contrastivo audio-lenguaje genera representaciones conjuntas potentes, aunque una brecha persistente entre las modalidades de audio y texto limita los beneficios de acoplar codificadores multimodales con modelos de lenguaje grandes (LLM, por sus siglas en inglés). Presentamos Diffusion-Link, un módulo de conexión de modalidades basado en difusión que mapea generativamente los embeddings de audio a la distribución de embeddings de texto. El módulo se entrena en el embedding de salida del codificador multimodal congelado y se implementa como una red ligera con tres bloques residuales de MLP. Para evaluar el efecto de Diffusion-Link en el acoplamiento de codificadores multimodales con LLM, realizamos pruebas en la Tarea de Subtitulación Automática de Audio (AAC, por sus siglas en inglés); hasta donde sabemos, esta es la primera aplicación de conexión de modalidades basada en difusión a AAC. Reportamos dos resultados. (1) Análisis de la brecha de modalidad: en términos de similitud y criterios geométricos, Diffusion-Link reduce la brecha de modalidad más que los métodos previos basados en difusión y muestra una migración colectiva de los embeddings de audio hacia la distribución de texto. (2) AAC en tareas posteriores: al conectar Diffusion-Link al mismo modelo base multimodal LLM, se logra un rendimiento de vanguardia en AudioCaps tanto en subtitulación zero-shot como supervisada completa, sin conocimiento externo, con ganancias relativas de hasta el 52.5% y 7.5%, respectivamente. Estos hallazgos demuestran que cerrar la brecha de modalidad es crucial para un acoplamiento efectivo entre codificadores multimodales y LLM, y que la conexión de modalidades basada en difusión ofrece una dirección prometedora más allá de los diseños centrados en la recuperación de conocimiento. El código se publicará tras la aceptación en https://github.com/DevKiHyun/Diffusion-Link.
English
Contrastive audio-language pretraining yields powerful joint representations, yet a persistent audio-text modality gap limits the benefits of coupling multimodal encoders with large language models (LLMs). We present Diffusion-Link, a diffusion-based modality-bridging module that generatively maps audio embeddings into the text-embedding distribution. The module is trained at the output embedding from the frozen multimodal encoder and implemented as a lightweight network with three residual MLP blocks. To assess the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on Automatic Audio Captioning (AAC); to our knowledge, this is the first application of diffusion-based modality bridging to AAC. We report two results. (1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link reduces the modality gap the most among prior diffusion-based methods and shows a collective migration of audio embeddings toward the text distribution. (2) Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised captioning without external knowledge, with relative gains up to 52.5% and 7.5%, respectively. These findings show that closing the modality gap is pivotal for effective coupling between multimodal encoders and LLMs, and diffusion-based modality bridging offers a promising direction beyond knowledge-retrieval-centric designs. Code will be released upon acceptance https://github.com/DevKiHyun/Diffusion-Link
PDF12October 15, 2025