MST-Distill : Mélange d'enseignants spécialisés pour la distillation de connaissances intermodales
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
July 9, 2025
papers.authors: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang
cs.AI
papers.abstract
La distillation de connaissances, en tant que technique efficace de transfert de connaissances, a obtenu un succès remarquable dans des scénarios unimodaux. Cependant, dans des contextes intermodaux, les méthodes de distillation conventionnelles rencontrent des défis significatifs en raison des hétérogénéités des données et des statistiques, échouant à exploiter les connaissances a priori complémentaires intégrées dans les modèles enseignants intermodaux. Cet article révèle empiriquement deux problèmes critiques dans les approches existantes : la sélection du chemin de distillation et la dérive des connaissances. Pour surmonter ces limitations, nous proposons MST-Distill, un nouveau cadre de distillation de connaissances intermodales mettant en œuvre un mélange d'enseignants spécialisés. Notre approche utilise un ensemble diversifié de modèles enseignants dans des configurations à la fois intermodales et multimodales, intégré avec un réseau de routage au niveau des instances qui facilite une distillation adaptative et dynamique. Cette architecture transcende efficacement les contraintes des méthodes traditionnelles qui reposent sur des modèles enseignants monotones et statiques. De plus, nous introduisons un module de masquage plug-in, entraîné indépendamment pour supprimer les écarts spécifiques aux modalités et reconstruire les représentations des enseignants, atténuant ainsi la dérive des connaissances et améliorant l'efficacité du transfert. Des expériences approfondies sur cinq ensembles de données multimodales variés, couvrant les domaines visuel, audio et textuel, démontrent que notre méthode surpasse significativement les méthodes de distillation de connaissances intermodales de pointe existantes. Le code source est disponible à l'adresse https://github.com/Gray-OREO/MST-Distill.
English
Knowledge distillation as an efficient knowledge transfer technique, has
achieved remarkable success in unimodal scenarios. However, in cross-modal
settings, conventional distillation methods encounter significant challenges
due to data and statistical heterogeneities, failing to leverage the
complementary prior knowledge embedded in cross-modal teacher models. This
paper empirically reveals two critical issues in existing approaches:
distillation path selection and knowledge drift. To address these limitations,
we propose MST-Distill, a novel cross-modal knowledge distillation framework
featuring a mixture of specialized teachers. Our approach employs a diverse
ensemble of teacher models across both cross-modal and multimodal
configurations, integrated with an instance-level routing network that
facilitates adaptive and dynamic distillation. This architecture effectively
transcends the constraints of traditional methods that rely on monotonous and
static teacher models. Additionally, we introduce a plug-in masking module,
independently trained to suppress modality-specific discrepancies and
reconstruct teacher representations, thereby mitigating knowledge drift and
enhancing transfer effectiveness. Extensive experiments across five diverse
multimodal datasets, spanning visual, audio, and text, demonstrate that our
method significantly outperforms existing state-of-the-art knowledge
distillation methods in cross-modal distillation tasks. The source code is
available at https://github.com/Gray-OREO/MST-Distill.