Switch-KD: Distilación de Conocimiento por Conmutación Visual para Modelos de Lenguaje-Visión

Resumen

Los Modelos de Visión y Lenguaje (VLM) han demostrado capacidades notables en la comprensión conjunta de visión y lenguaje, pero su gran escala plantea desafíos significativos para su implementación en escenarios con recursos limitados. La Distilación de Conocimiento (KD) ofrece una forma viable de mejorar las capacidades del modelo sin aumentar su tamaño o los requisitos de datos, haciendo que la implementación sea más eficiente. Sin embargo, la aplicación de KD a los VLM se ve dificultada por la supervisión específica de cada modalidad: aunque el conocimiento multimodal en los VLM se fusiona dentro del espacio lingüístico, los métodos actuales supervisan cada modalidad por separado sin abordar explícitamente la alineación multimodal, lo que conduce a una transferencia de conocimiento multimodal inconsistente. Para abordar esto, proponemos Switch-KD, un marco de distilación con conmutación visual que unifica la transferencia de conocimiento visión-lenguaje dentro de un espacio compartido de probabilidades textuales. Switch-KD comprende dos componentes clave: (1) la Distilación por Conmutación Visual, que conmuta las salidas visuales del estudiante a la vía lingüística del profesor para construir referencias probabilísticas cross-modales para la transferencia implícita de conocimiento visual; y (2) la pérdida por Diferencia Logística Bidireccional Dinámica (DBiLD), que alinea de forma adaptativa las regiones probabilísticas informativas mientras preserva las estructuras distribucionales del profesor y del estudiante mediante una supervisión bidireccional. Guiado por Switch-KD, un TinyLLaVA de 0.5B distila efectivamente un rico conocimiento multimodal de su profesor de 3B, logrando una mejora promedio de 3.6 puntos en 10 benchmarks multimodales sin ninguna modificación arquitectónica.

English

Vision-Language Models (VLMs) have shown remarkable capabilities in joint vision-language understanding, but their large scale poses significant challenges for deployment in resource-constrained scenarios. Knowledge Distillation (KD) offers a viable way to improve model capabilities without increasing model size or data requirements, making deployment more efficient. However, applying KD to VLMs is challenged by modality-specific supervision: although multimodal knowledge in VLMs is fused within the language space, current methods supervise each modality separately without explicitly addressing multimodal alignment, leading to inconsistent multimodal knowledge transfer. To address this, we propose Switch-KD, a visual-switch distillation framework that unifies vision-language knowledge transfer within a shared text-probability space. Switch-KD comprises two key components: (1) Visual-Switch Distillation, which switches the student's visual outputs into the teacher's language pathway to construct cross-modal probabilistic references for implicit visual knowledge transfer; and (2) Dynamic Bi-directional Logits Difference (DBiLD) loss, which adaptively aligns informative probability regions while preserving the distributional structures of teacher and student through bidirectional supervision. Guided by Switch-KD, a 0.5B TinyLLaVA effectively distills rich multimodal knowledge from its 3B teacher, yielding an average improvement of 3.6 points across 10 multimodal benchmarks without any architectural modification.

Switch-KD: Distilación de Conocimiento por Conmutación Visual para Modelos de Lenguaje-Visión

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

Resumen

Support