ChatPaper.aiChatPaper

MST-Distill: 크로스 모달 지식 증류를 위한 전문가 교사 앙상블

MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation

July 9, 2025
저자: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang
cs.AI

초록

지식 증류(knowledge distillation)는 효율적인 지식 전달 기술로써 단일 모달리티(unimodal) 시나리오에서 주목할만한 성공을 거두었습니다. 그러나 크로스 모달리티(cross-modal) 환경에서는 데이터와 통계적 이질성으로 인해 기존의 증류 방법들이 상당한 어려움에 직면하며, 크로스 모달리티 교사 모델에 내재된 상호 보완적 사전 지식을 활용하지 못하고 있습니다. 본 논문은 기존 접근법에서 두 가지 중요한 문제점, 즉 증류 경로 선택과 지식 드리프트(knowledge drift)를 실증적으로 밝혀냅니다. 이러한 한계를 해결하기 위해, 우리는 전문 교사 모델의 혼합을 특징으로 하는 새로운 크로스 모달리티 지식 증류 프레임워크인 MST-Distill을 제안합니다. 우리의 접근법은 크로스 모달리티와 멀티모달리티(multimodal) 구성 모두에 걸쳐 다양한 교사 모델 앙상블을 활용하며, 적응적이고 동적인 증류를 가능하게 하는 인스턴스 수준의 라우팅 네트워크와 통합됩니다. 이 아키텍처는 단조롭고 정적인 교사 모델에 의존하는 전통적인 방법의 제약을 효과적으로 극복합니다. 또한, 우리는 모달리티 특정 불일치를 억제하고 교사 표현을 재구성하여 지식 드리프트를 완화하고 전달 효과를 향상시키기 위해 독립적으로 훈련된 플러그인 마스킹 모듈을 도입합니다. 시각, 청각, 텍스트를 아우르는 다섯 가지 다양한 멀티모달리티 데이터셋에서의 광범위한 실험을 통해, 우리의 방법이 크로스 모달리티 증류 작업에서 기존의 최첨단 지식 증류 방법들을 크게 능가함을 입증합니다. 소스 코드는 https://github.com/Gray-OREO/MST-Distill에서 확인할 수 있습니다.
English
Knowledge distillation as an efficient knowledge transfer technique, has achieved remarkable success in unimodal scenarios. However, in cross-modal settings, conventional distillation methods encounter significant challenges due to data and statistical heterogeneities, failing to leverage the complementary prior knowledge embedded in cross-modal teacher models. This paper empirically reveals two critical issues in existing approaches: distillation path selection and knowledge drift. To address these limitations, we propose MST-Distill, a novel cross-modal knowledge distillation framework featuring a mixture of specialized teachers. Our approach employs a diverse ensemble of teacher models across both cross-modal and multimodal configurations, integrated with an instance-level routing network that facilitates adaptive and dynamic distillation. This architecture effectively transcends the constraints of traditional methods that rely on monotonous and static teacher models. Additionally, we introduce a plug-in masking module, independently trained to suppress modality-specific discrepancies and reconstruct teacher representations, thereby mitigating knowledge drift and enhancing transfer effectiveness. Extensive experiments across five diverse multimodal datasets, spanning visual, audio, and text, demonstrate that our method significantly outperforms existing state-of-the-art knowledge distillation methods in cross-modal distillation tasks. The source code is available at https://github.com/Gray-OREO/MST-Distill.
PDF01July 18, 2025