LinguDistill: 시각-언어 모델에서 선택적 크로스 모달 지식 증류를 통한 언어 능력 회복
LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation
April 1, 2026
저자: Patrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar, Alham Fikri Aji, Yova Kementchedjhieva
cs.AI
초록
사전 훈련된 언어 모델(LM)을 시각-언어 모델(VLM)로 적응시키는 과정에서 표현 이동(representation shift)과 교차 모달 간섭(cross-modal interference)이 도입되며, 이는 모델의 고유 언어 능력을 저하시킬 수 있습니다. 이러한 손실은 표준 목적 함수를 사용한 과제 특화 미세 조정으로도 회복하기 어렵습니다. 기존 회복 방법들은 일반적으로 모달리티 특화 부분 공간을 유지하거나 분리하는 중간 정렬 계층 역할을 하는 추가 모듈을 도입하는데, 이는 구조적 복잡성을 증가시키고 추론 시 매개변수를 추가하며 모델 및 설정 간 유연성을 제한합니다. 본 연구에서는 고정된 원본 LM을 교사 모델로 활용하여 언어 능력을 회복하는 어댑터 없는 지식 증류 방법인 LinguDistill을 제안합니다. 계층별 KV 캐시 공유(layer-wise KV-cache sharing)를 도입하여 양쪽 모델의 구조를 수정하지 않으면서 교사 모델이 학생 모델의 다중모달 표현에 노출되도록 함으로써, 시각 정보가 조건으로 주어지는 상황에서 교사 모델의 지도를 가능하게 하는 핵심 과제를 해결했습니다. 이후 언어 집중 데이터에 대해 교사 모델의 강력한 언어 신호를 선택적으로 증류하여 언어 능력을 회복하면서도, 학생 모델의 다중모달 과제에 대한 시각적 기반 능력은 보존합니다. 그 결과, LinguDistill은 언어 및 지식 벤치마크에서 상실된 성능의 약 10%를 회복하면서도 시각 중심 과제에서는 비슷한 성능을 유지합니다. 본 연구 결과는 추가 모듈 없이도 언어 능력을 회복할 수 있음을 보여주며, 다중모달 모델에서 발생하는 모달리티 특화 성능 저하에 대한 효율적이고 실용적인 해결책을 제시합니다.
English
Adapting pretrained language models (LMs) into vision-language models (VLMs) can degrade their native linguistic capability due to representation shift and cross-modal interference introduced during multimodal adaptation. Such loss is difficult to recover, even with targeted task-specific fine-tuning using standard objectives. Prior recovery approaches typically introduce additional modules that act as intermediate alignment layers to maintain or isolate modality-specific subspaces, which increases architectural complexity, adds parameters at inference time, and limits flexibility across models and settings. We propose LinguDistill, an adapter-free distillation method that restores linguistic capability by utilizing the original frozen LM as a teacher. We overcome the key challenge of enabling vision-conditioned teacher supervision by introducing layer-wise KV-cache sharing, which exposes the teacher to the student's multimodal representations without modifying the architecture of either model. We then selectively distill the teacher's strong linguistic signal on language-intensive data to recover language capability, while preserving the student's visual grounding on multimodal tasks. As a result, LinguDistill recovers sim10% of the performance lost on language and knowledge benchmarks, while maintaining comparable performance on vision-heavy tasks. Our findings demonstrate that linguistic capability can be recovered without additional modules, providing an efficient and practical solution to modality-specific degradation in multimodal models.