MST-Distill: Miscela di Insegnanti Specializzati per la Distillazione di Conoscenza Cross-Modale
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
July 9, 2025
Autori: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang
cs.AI
Abstract
La distillazione della conoscenza, come tecnica efficiente di trasferimento della conoscenza, ha ottenuto un notevole successo in scenari unimodali. Tuttavia, in contesti cross-modali, i metodi convenzionali di distillazione incontrano sfide significative a causa delle eterogeneità dei dati e delle statistiche, fallendo nel sfruttare la conoscenza a priori complementare incorporata nei modelli insegnanti cross-modali. Questo articolo rivela empiricamente due problemi critici negli approcci esistenti: la selezione del percorso di distillazione e la deriva della conoscenza. Per affrontare queste limitazioni, proponiamo MST-Distill, un nuovo framework di distillazione della conoscenza cross-modale che presenta una miscela di insegnanti specializzati. Il nostro approccio utilizza un insieme diversificato di modelli insegnanti sia in configurazioni cross-modali che multimodali, integrato con una rete di routing a livello di istanza che facilita una distillazione adattiva e dinamica. Questa architettura supera efficacemente i vincoli dei metodi tradizionali che si basano su modelli insegnanti monotoni e statici. Inoltre, introduciamo un modulo di mascheramento plug-in, addestrato in modo indipendente per sopprimere le discrepanze specifiche della modalità e ricostruire le rappresentazioni degli insegnanti, mitigando così la deriva della conoscenza e migliorando l'efficacia del trasferimento. Esperimenti estesi su cinque diversi dataset multimodali, che coprono visuale, audio e testo, dimostrano che il nostro metodo supera significativamente i metodi di distillazione della conoscenza all'avanguardia esistenti nei compiti di distillazione cross-modale. Il codice sorgente è disponibile all'indirizzo https://github.com/Gray-OREO/MST-Distill.
English
Knowledge distillation as an efficient knowledge transfer technique, has
achieved remarkable success in unimodal scenarios. However, in cross-modal
settings, conventional distillation methods encounter significant challenges
due to data and statistical heterogeneities, failing to leverage the
complementary prior knowledge embedded in cross-modal teacher models. This
paper empirically reveals two critical issues in existing approaches:
distillation path selection and knowledge drift. To address these limitations,
we propose MST-Distill, a novel cross-modal knowledge distillation framework
featuring a mixture of specialized teachers. Our approach employs a diverse
ensemble of teacher models across both cross-modal and multimodal
configurations, integrated with an instance-level routing network that
facilitates adaptive and dynamic distillation. This architecture effectively
transcends the constraints of traditional methods that rely on monotonous and
static teacher models. Additionally, we introduce a plug-in masking module,
independently trained to suppress modality-specific discrepancies and
reconstruct teacher representations, thereby mitigating knowledge drift and
enhancing transfer effectiveness. Extensive experiments across five diverse
multimodal datasets, spanning visual, audio, and text, demonstrate that our
method significantly outperforms existing state-of-the-art knowledge
distillation methods in cross-modal distillation tasks. The source code is
available at https://github.com/Gray-OREO/MST-Distill.