Diffusion-Link: 音声-テキストモダリティギャップを橋渡しするための拡散確率モデル
Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
October 13, 2025
著者: KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
cs.AI
要旨
対照的な音声-言語事前学習は強力な結合表現を生み出すが、音声とテキストのモダリティ間のギャップが持続的に存在し、マルチモーダルエンコーダと大規模言語モデル(LLM)の結合の利点を制限している。本論文では、Diffusion-Linkを提案する。これは、拡散ベースのモダリティブリッジングモジュールであり、音声埋め込みをテキスト埋め込み分布に生成的に対応付けるものである。このモジュールは、凍結されたマルチモーダルエンコーダの出力埋め込みにおいて訓練され、3つの残差MLPブロックからなる軽量ネットワークとして実装されている。Diffusion-LinkがマルチモーダルエンコーダとLLMの結合に及ぼす効果を評価するため、自動音声キャプショニング(AAC)において評価を行った。我々の知る限り、これは拡散ベースのモダリティブリッジングをAACに適用した初めての例である。2つの結果を報告する。(1) モダリティギャップ分析:類似性および幾何学的基準において、Diffusion-Linkは既存の拡散ベース手法の中で最もモダリティギャップを縮小し、音声埋め込みがテキスト分布に向かって集団的に移行することを示した。(2) 下流タスクとしてのAAC:Diffusion-Linkを同じマルチモーダルLLMベースラインに接続することで、外部知識なしにAudioCapsにおいてゼロショットおよび完全教師ありキャプショニングの両方で最先端の性能を達成し、それぞれ相対的な改善率が最大52.5%および7.5%であった。これらの結果は、モダリティギャップを縮小することがマルチモーダルエンコーダとLLMの効果的な結合において重要であり、拡散ベースのモダリティブリッジングが知識検索中心の設計を超えた有望な方向性を提供することを示している。コードは受理後に公開予定である。https://github.com/DevKiHyun/Diffusion-Link
English
Contrastive audio-language pretraining yields powerful joint representations,
yet a persistent audio-text modality gap limits the benefits of coupling
multimodal encoders with large language models (LLMs). We present
Diffusion-Link, a diffusion-based modality-bridging module that generatively
maps audio embeddings into the text-embedding distribution. The module is
trained at the output embedding from the frozen multimodal encoder and
implemented as a lightweight network with three residual MLP blocks. To assess
the effect of Diffusion-Link on multimodal encoder-LLM coupling, we evaluate on
Automatic Audio Captioning (AAC); to our knowledge, this is the first
application of diffusion-based modality bridging to AAC. We report two results.
(1) Modality-gap analysis: on similarity and geometric criteria, Diffusion-Link
reduces the modality gap the most among prior diffusion-based methods and shows
a collective migration of audio embeddings toward the text distribution. (2)
Downstream AAC: attaching Diffusion-Link to the same multimodal LLM baseline
achieves state-of-the-art on AudioCaps in both zero-shot and fully supervised
captioning without external knowledge, with relative gains up to 52.5% and
7.5%, respectively. These findings show that closing the modality gap is
pivotal for effective coupling between multimodal encoders and LLMs, and
diffusion-based modality bridging offers a promising direction beyond
knowledge-retrieval-centric designs. Code will be released upon acceptance
https://github.com/DevKiHyun/Diffusion-Link