MST-Distill: Mistura de Professores Especializados para Distilação de Conhecimento Transmodal
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
July 9, 2025
Autores: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang
cs.AI
Resumo
A destilação de conhecimento, como uma técnica eficiente de transferência de conhecimento, alcançou sucesso notável em cenários unimodais. No entanto, em configurações cross-modais, os métodos convencionais de destilação enfrentam desafios significativos devido às heterogeneidades de dados e estatísticas, falhando em aproveitar o conhecimento prévio complementar embutido em modelos de professores cross-modais. Este artigo revela empiricamente dois problemas críticos nas abordagens existentes: seleção de caminho de destilação e desvio de conhecimento. Para superar essas limitações, propomos o MST-Distill, uma nova estrutura de destilação de conhecimento cross-modal que apresenta uma mistura de professores especializados. Nossa abordagem emprega um conjunto diversificado de modelos de professores em configurações tanto cross-modais quanto multimodais, integrado a uma rede de roteamento em nível de instância que facilita a destilação adaptativa e dinâmica. Essa arquitetura transcende efetivamente as limitações dos métodos tradicionais que dependem de modelos de professores monótonos e estáticos. Além disso, introduzimos um módulo de mascaramento plug-in, treinado independentemente para suprimir discrepâncias específicas de modalidade e reconstruir as representações dos professores, mitigando assim o desvio de conhecimento e aprimorando a eficácia da transferência. Experimentos extensos em cinco conjuntos de dados multimodais diversos, abrangendo visual, áudio e texto, demonstram que nosso método supera significativamente os métodos de destilação de conhecimento state-of-the-art existentes em tarefas de destilação cross-modal. O código-fonte está disponível em https://github.com/Gray-OREO/MST-Distill.
English
Knowledge distillation as an efficient knowledge transfer technique, has
achieved remarkable success in unimodal scenarios. However, in cross-modal
settings, conventional distillation methods encounter significant challenges
due to data and statistical heterogeneities, failing to leverage the
complementary prior knowledge embedded in cross-modal teacher models. This
paper empirically reveals two critical issues in existing approaches:
distillation path selection and knowledge drift. To address these limitations,
we propose MST-Distill, a novel cross-modal knowledge distillation framework
featuring a mixture of specialized teachers. Our approach employs a diverse
ensemble of teacher models across both cross-modal and multimodal
configurations, integrated with an instance-level routing network that
facilitates adaptive and dynamic distillation. This architecture effectively
transcends the constraints of traditional methods that rely on monotonous and
static teacher models. Additionally, we introduce a plug-in masking module,
independently trained to suppress modality-specific discrepancies and
reconstruct teacher representations, thereby mitigating knowledge drift and
enhancing transfer effectiveness. Extensive experiments across five diverse
multimodal datasets, spanning visual, audio, and text, demonstrate that our
method significantly outperforms existing state-of-the-art knowledge
distillation methods in cross-modal distillation tasks. The source code is
available at https://github.com/Gray-OREO/MST-Distill.