MST-Distill: Mengsel van Gespecialiseerde Leraren voor Cross-Modale Kennisdistillatie
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
July 9, 2025
Auteurs: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang
cs.AI
Samenvatting
Kennisdistillatie, als een efficiënte techniek voor kennisoverdracht, heeft opmerkelijke successen behaald in unimodale scenario's. In cross-modale settings ondervinden conventionele distillatiemethoden echter aanzienlijke uitdagingen vanwege data- en statistische heterogeniteiten, waardoor ze er niet in slagen het complementaire voorkennis in cross-modale leraarmodellen te benutten. Dit artikel legt empirisch twee kritieke problemen bloot in bestaande benaderingen: distillatiepadselectie en kennisdrift. Om deze beperkingen aan te pakken, stellen we MST-Distill voor, een nieuw cross-modale kennisdistillatieraamwerk met een mix van gespecialiseerde leraren. Onze aanpak maakt gebruik van een diverse ensemble van leraarmodellen in zowel cross-modale als multimodale configuraties, geïntegreerd met een netwerk voor instantieniveau-routering dat adaptieve en dynamische distillatie mogelijk maakt. Deze architectuur overstijgt effectief de beperkingen van traditionele methoden die afhankelijk zijn van monotone en statische leraarmodellen. Daarnaast introduceren we een plug-in maskeringsmodule, onafhankelijk getraind om modale specifieke discrepanties te onderdrukken en leraarrepresentaties te reconstrueren, waardoor kennisdrift wordt verminderd en de overdrachtseffectiviteit wordt verbeterd. Uitgebreide experimenten op vijf diverse multimodale datasets, variërend van visuele, audio- en tekstgegevens, tonen aan dat onze methode aanzienlijk beter presteert dan bestaande state-of-the-art kennisdistillatiemethoden in cross-modale distillatietaken. De broncode is beschikbaar op https://github.com/Gray-OREO/MST-Distill.
English
Knowledge distillation as an efficient knowledge transfer technique, has
achieved remarkable success in unimodal scenarios. However, in cross-modal
settings, conventional distillation methods encounter significant challenges
due to data and statistical heterogeneities, failing to leverage the
complementary prior knowledge embedded in cross-modal teacher models. This
paper empirically reveals two critical issues in existing approaches:
distillation path selection and knowledge drift. To address these limitations,
we propose MST-Distill, a novel cross-modal knowledge distillation framework
featuring a mixture of specialized teachers. Our approach employs a diverse
ensemble of teacher models across both cross-modal and multimodal
configurations, integrated with an instance-level routing network that
facilitates adaptive and dynamic distillation. This architecture effectively
transcends the constraints of traditional methods that rely on monotonous and
static teacher models. Additionally, we introduce a plug-in masking module,
independently trained to suppress modality-specific discrepancies and
reconstruct teacher representations, thereby mitigating knowledge drift and
enhancing transfer effectiveness. Extensive experiments across five diverse
multimodal datasets, spanning visual, audio, and text, demonstrate that our
method significantly outperforms existing state-of-the-art knowledge
distillation methods in cross-modal distillation tasks. The source code is
available at https://github.com/Gray-OREO/MST-Distill.