MST-Distill:クロスモーダル知識蒸留のための専門化教師モデルの混合
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
July 9, 2025
著者: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang
cs.AI
要旨
知識蒸留は効率的な知識転送技術として、単一モダリティのシナリオで顕著な成功を収めてきました。しかし、クロスモーダル設定では、従来の蒸留手法はデータと統計的な異質性により重大な課題に直面し、クロスモーダル教師モデルに埋め込まれた補完的な事前知識を活用することができません。本論文では、既存のアプローチにおける2つの重要な問題、すなわち蒸留パスの選択と知識のドリフトを実証的に明らかにします。これらの制限を解決するため、我々はMST-Distillという新しいクロスモーダル知識蒸留フレームワークを提案します。このアプローチでは、クロスモーダルおよびマルチモーダル設定にわたる多様な教師モデルのアンサンブルを採用し、適応的かつ動的な蒸留を促進するインスタンスレベルルーティングネットワークと統合します。このアーキテクチャは、単調で静的な教師モデルに依存する従来の手法の制約を効果的に超越します。さらに、モダリティ固有の不一致を抑制し、教師表現を再構築するために独立して訓練されるプラグインマスキングモジュールを導入し、知識のドリフトを軽減し転送効果を向上させます。視覚、音声、テキストにわたる5つの多様なマルチモーダルデータセットでの広範な実験により、我々の手法がクロスモーダル蒸留タスクにおいて既存の最先端知識蒸留手法を大幅に上回ることを実証しました。ソースコードはhttps://github.com/Gray-OREO/MST-Distillで公開されています。
English
Knowledge distillation as an efficient knowledge transfer technique, has
achieved remarkable success in unimodal scenarios. However, in cross-modal
settings, conventional distillation methods encounter significant challenges
due to data and statistical heterogeneities, failing to leverage the
complementary prior knowledge embedded in cross-modal teacher models. This
paper empirically reveals two critical issues in existing approaches:
distillation path selection and knowledge drift. To address these limitations,
we propose MST-Distill, a novel cross-modal knowledge distillation framework
featuring a mixture of specialized teachers. Our approach employs a diverse
ensemble of teacher models across both cross-modal and multimodal
configurations, integrated with an instance-level routing network that
facilitates adaptive and dynamic distillation. This architecture effectively
transcends the constraints of traditional methods that rely on monotonous and
static teacher models. Additionally, we introduce a plug-in masking module,
independently trained to suppress modality-specific discrepancies and
reconstruct teacher representations, thereby mitigating knowledge drift and
enhancing transfer effectiveness. Extensive experiments across five diverse
multimodal datasets, spanning visual, audio, and text, demonstrate that our
method significantly outperforms existing state-of-the-art knowledge
distillation methods in cross-modal distillation tasks. The source code is
available at https://github.com/Gray-OREO/MST-Distill.