LinguDistill: Восстановление лингвистических способностей в Vision-Language моделях с помощью селективной кросс-модальной дистилляции

Аннотация

Адаптация предобученных языковых моделей (ЯМ) в модели зрения и языка (VLM) может приводить к деградации их исходных лингвистических способностей из-за сдвига репрезентаций и кросс-модальной интерференции, возникающих в процессе мультимодальной адаптации. Такую потерю сложно восстановить даже с помощью целевой тонкой настройки под конкретную задачу с использованием стандартных функций потерь. Существующие подходы к восстановлению обычно вводят дополнительные модули, которые выступают в качестве промежуточных слоев выравнивания для поддержания или изоляции модально-специфичных подпространств, что увеличивает архитектурную сложность, добавляет параметры на этапе вывода и ограничивает гибкость across моделями и настройками. Мы предлагаем LinguDistill, метод дистилляции без адаптеров, который восстанавливает лингвистические способности, используя исходную замороженную ЯМ в качестве учителя. Мы преодолеваем ключевую задачу обеспечения учительского контроля, обусловленного визуальными данными, за счет введения послойного разделения KV-кэша, что позволяет учителю получать доступ к мультимодальным репрезентациям ученика без изменения архитектуры любой из моделей. Затем мы выборочно дистиллируем сильный лингвистический сигнал учителя на данных с высокой языковой нагрузкой, чтобы восстановить языковые способности, сохраняя при этом визуальную обоснованность ученика на мультимодальных задачах. В результате LinguDistill восстанавливает примерно 10% потерянной производительности на языковых и знаниевых бенчмарках, сохраняя при этом сопоставимую производительность на задачах с преобладанием визуальной информации. Наши результаты демонстрируют, что лингвистические способности можно восстановить без дополнительных модулей, предлагая эффективное и практичное решение проблемы модально-специфичной деградации в мультимодальных моделях.

English

Adapting pretrained language models (LMs) into vision-language models (VLMs) can degrade their native linguistic capability due to representation shift and cross-modal interference introduced during multimodal adaptation. Such loss is difficult to recover, even with targeted task-specific fine-tuning using standard objectives. Prior recovery approaches typically introduce additional modules that act as intermediate alignment layers to maintain or isolate modality-specific subspaces, which increases architectural complexity, adds parameters at inference time, and limits flexibility across models and settings. We propose LinguDistill, an adapter-free distillation method that restores linguistic capability by utilizing the original frozen LM as a teacher. We overcome the key challenge of enabling vision-conditioned teacher supervision by introducing layer-wise KV-cache sharing, which exposes the teacher to the student's multimodal representations without modifying the architecture of either model. We then selectively distill the teacher's strong linguistic signal on language-intensive data to recover language capability, while preserving the student's visual grounding on multimodal tasks. As a result, LinguDistill recovers sim10% of the performance lost on language and knowledge benchmarks, while maintaining comparable performance on vision-heavy tasks. Our findings demonstrate that linguistic capability can be recovered without additional modules, providing an efficient and practical solution to modality-specific degradation in multimodal models.

LinguDistill: Восстановление лингвистических способностей в Vision-Language моделях с помощью селективной кросс-модальной дистилляции

LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Аннотация

Support