LinguDistill : Récupération des capacités linguistiques dans les modèles vision-langage par distillation multimodale sélective

Résumé

L'adaptation de modèles de langage (LM) pré-entraînés en modèles vision-langage (VLM) peut dégrader leur capacité linguistique native en raison d'un décalage de représentation et d'interférences inter-modales introduits lors de l'adaptation multimodale. Cette perte est difficile à récupérer, même avec un fine-tuning ciblé par tâche utilisant des objectifs standards. Les approches de récupération antérieures introduisent généralement des modules supplémentaires qui agissent comme des couches d'alignement intermédiaires pour maintenir ou isoler des sous-espaces spécifiques à une modalité, ce qui augmente la complexité architecturale, ajoute des paramètres au moment de l'inférence et limite la flexibilité entre les modèles et les configurations. Nous proposons LinguDistill, une méthode de distillation sans adaptateur qui restaure la capacité linguistique en utilisant le LM original gelé comme enseignant. Nous surmontons le défi principal de permettre une supervision enseignante conditionnée par la vision en introduisant un partage de cache KV par couches, ce qui expose l'enseignant aux représentations multimodales de l'étudiant sans modifier l'architecture d'aucun des deux modèles. Nous distillons ensuite sélectivement le fort signal linguistique de l'enseignant sur des données à forte intensité linguistique pour récupérer la capacité langagière, tout en préservant l'ancrage visuel de l'étudiant sur les tâches multimodales. En conséquence, LinguDistill récupère environ 10 % des performances perdues sur les benchmarks de langage et de connaissances, tout en maintenant des performances comparables sur les tâches à dominance visuelle. Nos résultats démontrent que la capacité linguistique peut être récupérée sans modules supplémentaires, offrant une solution efficace et pratique à la dégradation spécifique à une modalité dans les modèles multimodaux.

English

Adapting pretrained language models (LMs) into vision-language models (VLMs) can degrade their native linguistic capability due to representation shift and cross-modal interference introduced during multimodal adaptation. Such loss is difficult to recover, even with targeted task-specific fine-tuning using standard objectives. Prior recovery approaches typically introduce additional modules that act as intermediate alignment layers to maintain or isolate modality-specific subspaces, which increases architectural complexity, adds parameters at inference time, and limits flexibility across models and settings. We propose LinguDistill, an adapter-free distillation method that restores linguistic capability by utilizing the original frozen LM as a teacher. We overcome the key challenge of enabling vision-conditioned teacher supervision by introducing layer-wise KV-cache sharing, which exposes the teacher to the student's multimodal representations without modifying the architecture of either model. We then selectively distill the teacher's strong linguistic signal on language-intensive data to recover language capability, while preserving the student's visual grounding on multimodal tasks. As a result, LinguDistill recovers sim10% of the performance lost on language and knowledge benchmarks, while maintaining comparable performance on vision-heavy tasks. Our findings demonstrate that linguistic capability can be recovered without additional modules, providing an efficient and practical solution to modality-specific degradation in multimodal models.

LinguDistill : Récupération des capacités linguistiques dans les modèles vision-langage par distillation multimodale sélective

LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Résumé

Support