Switch-KD: Distilação de Conhecimento por Comutação Visual para Modelos de Visão e Linguagem

Resumo

Os Modelos de Visão-Linguagem (VLMs) demonstraram capacidades notáveis na compreensão conjunta de visão e linguagem, mas sua grande escala impõe desafios significativos para implantação em cenários com recursos limitados. A Destilação de Conhecimento (KD) oferece uma forma viável de melhorar as capacidades do modelo sem aumentar seu tamanho ou requisitos de dados, tornando a implantação mais eficiente. No entanto, a aplicação de KD a VLMs é dificultada pela supervisão modal-específica: embora o conhecimento multimodal nos VLMs seja fundido dentro do espaço linguístico, os métodos atuais supervisionam cada modalidade separadamente sem abordar explicitamente o alinhamento multimodal, resultando em transferência inconsistente de conhecimento multimodal. Para resolver isso, propomos o Switch-KD, uma estrutura de destilação com comutação visual que unifica a transferência de conhecimento visão-linguagem dentro de um espaço compartilhado de probabilidade textual. O Switch-KD compreende dois componentes principais: (1) Destilação por Comutação Visual, que comuta as saídas visuais do estudante para o pathway linguístico do professor para construir referências probabilísticas cruzadas para transferência implícita de conhecimento visual; e (2) a perda por Diferença de Logits Bidirecional Dinâmica (DBiLD), que alinha adaptativamente regiões probabilísticas informativas enquanto preserva as estruturas distribucionais do professor e do estudante através de supervisão bidirecional. Guiado pelo Switch-KD, um TinyLLaVA de 0,5B destila efetivamente conhecimento multimodal rico de seu professor de 3B, produzindo uma melhoria média de 3,6 pontos em 10 benchmarks multimodais sem qualquer modificação arquitetural.

English

Vision-Language Models (VLMs) have shown remarkable capabilities in joint vision-language understanding, but their large scale poses significant challenges for deployment in resource-constrained scenarios. Knowledge Distillation (KD) offers a viable way to improve model capabilities without increasing model size or data requirements, making deployment more efficient. However, applying KD to VLMs is challenged by modality-specific supervision: although multimodal knowledge in VLMs is fused within the language space, current methods supervise each modality separately without explicitly addressing multimodal alignment, leading to inconsistent multimodal knowledge transfer. To address this, we propose Switch-KD, a visual-switch distillation framework that unifies vision-language knowledge transfer within a shared text-probability space. Switch-KD comprises two key components: (1) Visual-Switch Distillation, which switches the student's visual outputs into the teacher's language pathway to construct cross-modal probabilistic references for implicit visual knowledge transfer; and (2) Dynamic Bi-directional Logits Difference (DBiLD) loss, which adaptively aligns informative probability regions while preserving the distributional structures of teacher and student through bidirectional supervision. Guided by Switch-KD, a 0.5B TinyLLaVA effectively distills rich multimodal knowledge from its 3B teacher, yielding an average improvement of 3.6 points across 10 multimodal benchmarks without any architectural modification.

Switch-KD: Distilação de Conhecimento por Comutação Visual para Modelos de Visão e Linguagem

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

Resumo

Support