Diffusion-Link: 오디오-텍스트 양식 간격 해소를 위한 확률적 확산 모델
Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
October 13, 2025
저자: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
cs.AI
초록
대조적 오디오-언어 사전 학습은 강력한 공동 표현을 제공하지만, 지속적인 오디오-텍스트 양식 간의 격차는 다중 양식 인코더와 대형 언어 모델(LLM)의 결합 효과를 제한합니다. 본 연구에서는 오디오 임베딩을 텍스트 임베딩 분포로 생성적으로 매핑하는 확산 기반 양식 연결 모듈인 Diffusion-Link를 제안합니다. 이 모듈은 고정된 다중 양식 인코더의 출력 임베딩에서 학습되며, 세 개의 잔차 MLP 블록으로 구성된 경량 네트워크로 구현됩니다. Diffusion-Link가 다중 양식 인코더와 LLM의 결합에 미치는 영향을 평가하기 위해 자동 오디오 캡션 생성(AAC)을 사용하였으며, 이는 확산 기반 양식 연결을 AAC에 적용한 첫 번째 사례로 알려져 있습니다. 두 가지 결과를 보고합니다. (1) 양식 간 격차 분석: 유사성 및 기하학적 기준에서 Diffusion-Link는 기존의 확산 기반 방법들 중 가장 큰 양식 간 격차 감소를 보였으며, 오디오 임베딩이 텍스트 분포로 집단적으로 이동하는 것을 확인했습니다. (2) 하위 작업 AAC: 동일한 다중 양식 LLM 베이스라인에 Diffusion-Link를 부착하면 외부 지식 없이도 AudioCaps에서 제로샷 및 완전 지도 캡션 생성 모두에서 최첨단 성능을 달성하였으며, 각각 최대 52.5% 및 7.5%의 상대적 성능 향상을 보였습니다. 이러한 결과는 양식 간 격차를 줄이는 것이 다중 양식 인코더와 LLM의 효과적인 결합에 있어 핵심적이며, 확산 기반 양식 연결이 지식 검색 중심 설계를 넘어 유망한 방향을 제시함을 보여줍니다. 코드는 논문 수락 시 https://github.com/DevKiHyun/Diffusion-Link에서 공개될 예정입니다.
English
Contrastive audio-language pretraining yields powerful joint representations,
yet a persistent audio-text modality gap limits the benefits of coupling
multimodal encoders with large language models (LLMs). We present
Diffusion-Link, a diffusion-based modality-bridging module that generatively
maps audio embeddings into the text-embedding distribution. The module is
trained at the output embedding from the frozen multimodal encoder and
implemented as a lightweight network with three residual MLP blocks. To assess
the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on
Automatic Audio Captioning (AAC); to our knowledge, this is the first
application of diffusion-based modality bridging to AAC. We report two results.
(1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link
reduces the modality gap the most among prior diffusion-based methods and shows
a collective migration of audio embeddings toward the text distribution. (2)
Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline
achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised
captioning without external knowledge, with relative gains up to 52.5% and
7.5%, respectively. These findings show that closing the modality gap is
pivotal for effective coupling between multimodal encoders and LLMs, and
diffusion-based modality bridging offers a promising direction beyond
knowledge-retrieval-centric designs. Code will be released upon acceptance
https://github.com/DevKiHyun/Diffusion-Link