MST-Distill: Mischung spezialisierter Lehrer für cross-modale Wissensdistillation
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
July 9, 2025
papers.authors: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang
cs.AI
papers.abstract
Wissensdistillation als effiziente Technik zur Wissensübertragung hat in unimodalen Szenarien bemerkenswerte Erfolge erzielt. In cross-modalen Settings stoßen konventionelle Distillationsmethoden jedoch aufgrund von Daten- und statistischen Heterogenitäten auf erhebliche Herausforderungen und scheitern daran, das komplementäre Vorwissen, das in cross-modalen Lehrermodellen eingebettet ist, zu nutzen. Dieses Papier zeigt empirisch zwei kritische Probleme in bestehenden Ansätzen auf: die Auswahl des Distillationspfads und die Wissensdrift. Um diese Einschränkungen zu überwinden, schlagen wir MST-Distill vor, ein neuartiges Framework für cross-modale Wissensdistillation, das eine Mischung spezialisierter Lehrer-Modelle beinhaltet. Unser Ansatz verwendet ein diverses Ensemble von Lehrermodellen in sowohl cross-modalen als auch multimodalen Konfigurationen, integriert mit einem instanzbasierten Routing-Netzwerk, das eine adaptive und dynamische Distillation ermöglicht. Diese Architektur überwindet effektiv die Beschränkungen traditioneller Methoden, die auf monotonen und statischen Lehrermodellen basieren. Zusätzlich führen wir ein Plug-in-Maskierungsmodul ein, das unabhängig trainiert wird, um modalitätsspezifische Diskrepanzen zu unterdrücken und Lehrer-Repräsentationen zu rekonstruieren, wodurch die Wissensdrift gemildert und die Transferwirksamkeit verbessert wird. Umfangreiche Experimente über fünf diverse multimodale Datensätze, die visuelle, auditive und textuelle Daten umfassen, zeigen, dass unsere Methode bestehende state-of-the-art Wissensdistillationsmethoden in cross-modalen Distillationsaufgaben deutlich übertrifft. Der Quellcode ist unter https://github.com/Gray-OREO/MST-Distill verfügbar.
English
Knowledge distillation as an efficient knowledge transfer technique, has
achieved remarkable success in unimodal scenarios. However, in cross-modal
settings, conventional distillation methods encounter significant challenges
due to data and statistical heterogeneities, failing to leverage the
complementary prior knowledge embedded in cross-modal teacher models. This
paper empirically reveals two critical issues in existing approaches:
distillation path selection and knowledge drift. To address these limitations,
we propose MST-Distill, a novel cross-modal knowledge distillation framework
featuring a mixture of specialized teachers. Our approach employs a diverse
ensemble of teacher models across both cross-modal and multimodal
configurations, integrated with an instance-level routing network that
facilitates adaptive and dynamic distillation. This architecture effectively
transcends the constraints of traditional methods that rely on monotonous and
static teacher models. Additionally, we introduce a plug-in masking module,
independently trained to suppress modality-specific discrepancies and
reconstruct teacher representations, thereby mitigating knowledge drift and
enhancing transfer effectiveness. Extensive experiments across five diverse
multimodal datasets, spanning visual, audio, and text, demonstrate that our
method significantly outperforms existing state-of-the-art knowledge
distillation methods in cross-modal distillation tasks. The source code is
available at https://github.com/Gray-OREO/MST-Distill.