MST-Distill: Mezcla de Profesores Especializados para la Destilación de Conocimiento Transmodal
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
July 9, 2025
Autores: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang
cs.AI
Resumen
La destilación de conocimiento, como técnica eficiente de transferencia de conocimiento, ha logrado un éxito notable en escenarios unimodales. Sin embargo, en entornos multimodales, los métodos convencionales de destilación enfrentan desafíos significativos debido a las heterogeneidades de datos y estadísticas, lo que les impide aprovechar el conocimiento previo complementario incrustado en los modelos maestros multimodales. Este artículo revela empíricamente dos problemas críticos en los enfoques existentes: la selección de la ruta de destilación y la deriva del conocimiento. Para abordar estas limitaciones, proponemos MST-Distill, un novedoso marco de destilación de conocimiento multimodal que incluye una mezcla de maestros especializados. Nuestro enfoque emplea un conjunto diverso de modelos maestros en configuraciones tanto multimodales como multimodales, integrado con una red de enrutamiento a nivel de instancia que facilita una destilación adaptativa y dinámica. Esta arquitectura trasciende efectivamente las limitaciones de los métodos tradicionales que dependen de modelos maestros monótonos y estáticos. Además, introducimos un módulo de enmascaramiento complementario, entrenado de manera independiente para suprimir las discrepancias específicas de cada modalidad y reconstruir las representaciones de los maestros, mitigando así la deriva del conocimiento y mejorando la efectividad de la transferencia. Experimentos exhaustivos en cinco conjuntos de datos multimodales diversos, que abarcan visuales, audio y texto, demuestran que nuestro método supera significativamente a los métodos de destilación de conocimiento más avanzados en tareas de destilación multimodal. El código fuente está disponible en https://github.com/Gray-OREO/MST-Distill.
English
Knowledge distillation as an efficient knowledge transfer technique, has
achieved remarkable success in unimodal scenarios. However, in cross-modal
settings, conventional distillation methods encounter significant challenges
due to data and statistical heterogeneities, failing to leverage the
complementary prior knowledge embedded in cross-modal teacher models. This
paper empirically reveals two critical issues in existing approaches:
distillation path selection and knowledge drift. To address these limitations,
we propose MST-Distill, a novel cross-modal knowledge distillation framework
featuring a mixture of specialized teachers. Our approach employs a diverse
ensemble of teacher models across both cross-modal and multimodal
configurations, integrated with an instance-level routing network that
facilitates adaptive and dynamic distillation. This architecture effectively
transcends the constraints of traditional methods that rely on monotonous and
static teacher models. Additionally, we introduce a plug-in masking module,
independently trained to suppress modality-specific discrepancies and
reconstruct teacher representations, thereby mitigating knowledge drift and
enhancing transfer effectiveness. Extensive experiments across five diverse
multimodal datasets, spanning visual, audio, and text, demonstrate that our
method significantly outperforms existing state-of-the-art knowledge
distillation methods in cross-modal distillation tasks. The source code is
available at https://github.com/Gray-OREO/MST-Distill.