LinguDistill: Recuperação da Capacidade Linguística em Modelos de Visão e Linguagem por meio de Distilação Cross-Modal Seletiva

Resumo

A adaptação de modelos de linguagem pré-treinados (LMs) em modelos visão-linguagem (VLMs) pode degradar a sua capacidade linguística nativa devido ao desvio de representação e à interferência intermodal introduzidos durante a adaptação multimodal. Essa perda é difícil de recuperar, mesmo com um ajuste fino específico para a tarefa utilizando objetivos padrão. As abordagens anteriores de recuperação normalmente introduzem módulos adicionais que atuam como camadas de alinhamento intermediárias para manter ou isolar subes-paços modais específicos, o que aumenta a complexidade arquitetônica, adiciona parâmetros no tempo de inferência e limita a flexibilidade entre modelos e configurações. Propomos o LinguDistill, um método de destilação livre de adaptadores que restaura a capacidade linguística utilizando o LM original congelado como professor. Superamos o desafio fundamental de permitir a supervisão do professor condicionada pela visão através da introdução do compartilhamento hierárquico de cache KV, que expõe o professor às representações multimodais do estudante sem modificar a arquitetura de nenhum dos modelos. Em seguida, destilamos seletivamente o forte sinal linguístico do professor em dados linguisticamente intensivos para recuperar a capacidade de linguagem, preservando ao mesmo tempo a fundamentação visual do estudante em tarefas multimodais. Como resultado, o LinguDistill recupera aproximadamente 10% do desempenho perdido em benchmarks de linguagem e conhecimento, mantendo um desempenho comparável em tarefas com forte componente visual. As nossas descobertas demonstram que a capacidade linguística pode ser recuperada sem módulos adicionais, fornecendo uma solução eficiente e prática para a degradação modal específica em modelos multimodais.

English

Adapting pretrained language models (LMs) into vision-language models (VLMs) can degrade their native linguistic capability due to representation shift and cross-modal interference introduced during multimodal adaptation. Such loss is difficult to recover, even with targeted task-specific fine-tuning using standard objectives. Prior recovery approaches typically introduce additional modules that act as intermediate alignment layers to maintain or isolate modality-specific subspaces, which increases architectural complexity, adds parameters at inference time, and limits flexibility across models and settings. We propose LinguDistill, an adapter-free distillation method that restores linguistic capability by utilizing the original frozen LM as a teacher. We overcome the key challenge of enabling vision-conditioned teacher supervision by introducing layer-wise KV-cache sharing, which exposes the teacher to the student's multimodal representations without modifying the architecture of either model. We then selectively distill the teacher's strong linguistic signal on language-intensive data to recover language capability, while preserving the student's visual grounding on multimodal tasks. As a result, LinguDistill recovers sim10% of the performance lost on language and knowledge benchmarks, while maintaining comparable performance on vision-heavy tasks. Our findings demonstrate that linguistic capability can be recovered without additional modules, providing an efficient and practical solution to modality-specific degradation in multimodal models.

LinguDistill: Recuperação da Capacidade Linguística em Modelos de Visão e Linguagem por meio de Distilação Cross-Modal Seletiva

LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Resumo

Support