Switch-KD: Distillazione della Conoscenza tramite Commutazione Visiva per Modelli Visione-Linguaggio

Abstract

I modelli visione-linguaggio (VLM) hanno dimostrato capacità notevoli nella comprensione congiunta di visione e linguaggio, ma la loro grande scala pone sfide significative per la distribuzione in scenari con risorse limitate. La distillazione della conoscenza (KD) offre una soluzione praticabile per migliorare le capacità del modello senza aumentarne le dimensioni o i requisiti dati, rendendo la distribuzione più efficiente. Tuttavia, l'applicazione della KD ai VLM è complicata dalla supervisione specifica per modalità: sebbene la conoscenza multimodale nei VLM sia fusa all'interno dello spazio linguistico, i metodi attuali supervisionano separatamente ogni modalità senza affrontare esplicitamente l'allineamento multimodale, portando a un trasferimento incoerente della conoscenza multimodale. Per risolvere questo problema, proponiamo Switch-KD, un framework di distillazione con interruttore visivo che unifica il trasferimento di conoscenza visione-linguaggio all'interno di uno spazio condiviso di probabilità testuale. Switch-KD comprende due componenti chiave: (1) la Distillazione con Interruttore Visivo, che instrada gli output visivi dello studente nel pathway linguistico del teacher per costruire riferimenti probabilistici cross-modali per un trasferimento implicito della conoscenza visiva; e (2) la perdita DBiLD (Dynamic Bi-directional Logits Difference), che allinea adattivamente le regioni probabilistiche informative preservando le strutture distributive del teacher e dello studente attraverso una supervisione bidirezionale. Guidato da Switch-KD, un TinyLLaVA da 0,5 miliardi di parametri distilla efficacemente la ricca conoscenza multimodale dal suo teacher da 3 miliardi, ottenendo un miglioramento medio di 3,6 punti su 10 benchmark multimodali senza alcuna modifica architetturale.

English

Vision-Language Models (VLMs) have shown remarkable capabilities in joint vision-language understanding, but their large scale poses significant challenges for deployment in resource-constrained scenarios. Knowledge Distillation (KD) offers a viable way to improve model capabilities without increasing model size or data requirements, making deployment more efficient. However, applying KD to VLMs is challenged by modality-specific supervision: although multimodal knowledge in VLMs is fused within the language space, current methods supervise each modality separately without explicitly addressing multimodal alignment, leading to inconsistent multimodal knowledge transfer. To address this, we propose Switch-KD, a visual-switch distillation framework that unifies vision-language knowledge transfer within a shared text-probability space. Switch-KD comprises two key components: (1) Visual-Switch Distillation, which switches the student's visual outputs into the teacher's language pathway to construct cross-modal probabilistic references for implicit visual knowledge transfer; and (2) Dynamic Bi-directional Logits Difference (DBiLD) loss, which adaptively aligns informative probability regions while preserving the distributional structures of teacher and student through bidirectional supervision. Guided by Switch-KD, a 0.5B TinyLLaVA effectively distills rich multimodal knowledge from its 3B teacher, yielding an average improvement of 3.6 points across 10 multimodal benchmarks without any architectural modification.

Switch-KD: Distillazione della Conoscenza tramite Commutazione Visiva per Modelli Visione-Linguaggio

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

Abstract

Support