MST-Distill: Смесь специализированных учителей для кросс-модального дистилляции знаний
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
July 9, 2025
Авторы: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang
cs.AI
Аннотация
Дистилляция знаний как эффективная техника передачи знаний достигла значительных успехов в унимодальных сценариях. Однако в кросс-модальных условиях традиционные методы дистилляции сталкиваются с серьезными трудностями из-за гетерогенности данных и статистических различий, не позволяя использовать комплементарные априорные знания, заложенные в кросс-модальных моделях-учителях. В данной работе эмпирически выявлены две ключевые проблемы существующих подходов: выбор пути дистилляции и дрейф знаний. Для устранения этих ограничений мы предлагаем MST-Distill — новый фреймворк кросс-модальной дистилляции знаний, основанный на смеси специализированных моделей-учителей. Наш подход использует разнообразный ансамбль моделей-учителей как в кросс-модальных, так и в мультимодальных конфигурациях, интегрированный с сетью маршрутизации на уровне экземпляров, что обеспечивает адаптивную и динамическую дистилляцию. Эта архитектура эффективно преодолевает ограничения традиционных методов, основанных на монотонных и статических моделях-учителях. Дополнительно мы вводим модуль маскирования, который обучается независимо для подавления модально-специфичных расхождений и реконструкции представлений моделей-учителей, тем самым смягчая дрейф знаний и повышая эффективность передачи. Эксперименты на пяти разнообразных мультимодальных наборах данных, охватывающих визуальные, аудио и текстовые модальности, демонстрируют, что наш метод значительно превосходит современные методы дистилляции знаний в задачах кросс-модальной дистилляции. Исходный код доступен по адресу https://github.com/Gray-OREO/MST-Distill.
English
Knowledge distillation as an efficient knowledge transfer technique, has
achieved remarkable success in unimodal scenarios. However, in cross-modal
settings, conventional distillation methods encounter significant challenges
due to data and statistical heterogeneities, failing to leverage the
complementary prior knowledge embedded in cross-modal teacher models. This
paper empirically reveals two critical issues in existing approaches:
distillation path selection and knowledge drift. To address these limitations,
we propose MST-Distill, a novel cross-modal knowledge distillation framework
featuring a mixture of specialized teachers. Our approach employs a diverse
ensemble of teacher models across both cross-modal and multimodal
configurations, integrated with an instance-level routing network that
facilitates adaptive and dynamic distillation. This architecture effectively
transcends the constraints of traditional methods that rely on monotonous and
static teacher models. Additionally, we introduce a plug-in masking module,
independently trained to suppress modality-specific discrepancies and
reconstruct teacher representations, thereby mitigating knowledge drift and
enhancing transfer effectiveness. Extensive experiments across five diverse
multimodal datasets, spanning visual, audio, and text, demonstrate that our
method significantly outperforms existing state-of-the-art knowledge
distillation methods in cross-modal distillation tasks. The source code is
available at https://github.com/Gray-OREO/MST-Distill.