LinguDistill: Recuperación de la Capacidad Lingüística en Modelos de Lenguaje-Visión mediante Destilación Cross-Modal Selectiva

Resumen

La adaptación de modelos de lenguaje preentrenados (LM) en modelos de visión y lenguaje (VLM) puede degradar su capacidad lingüística nativa debido al desplazamiento de representación y a la interferencia cross-modal introducida durante la adaptación multimodal. Esta pérdida es difícil de recuperar, incluso con ajuste fino específico por tarea utilizando objetivos estándar. Los enfoques de recuperación previos suelen introducir módulos adicionales que actúan como capas de alineación intermedias para mantener o aislar subespacios específicos por modalidad, lo que aumenta la complejidad arquitectónica, añade parámetros en el tiempo de inferencia y limita la flexibilidad entre modelos y configuraciones. Proponemos LinguDistill, un método de destilación sin adaptadores que restaura la capacidad lingüística utilizando el LM original congelado como profesor. Superamos el desafío clave de habilitar la supervisión del profesor condicionada por visión introduciendo el intercambio de caché KV por capas, que expone al profesor a las representaciones multimodales del estudiante sin modificar la arquitectura de ninguno de los modelos. Luego, destilamos selectivamente la fuerte señal lingüística del profesor en datos intensivos en lenguaje para recuperar la capacidad lingüística, mientras preservamos la base visual del estudiante en tareas multimodales. Como resultado, LinguDistill recupera aproximadamente el 10% del rendimiento perdido en benchmarks de lenguaje y conocimiento, manteniendo un rendimiento comparable en tareas intensivas en visión. Nuestros hallazgos demuestran que la capacidad lingüística puede recuperarse sin módulos adicionales, proporcionando una solución eficiente y práctica a la degradación específica por modalidad en modelos multimodales.

English

Adapting pretrained language models (LMs) into vision-language models (VLMs) can degrade their native linguistic capability due to representation shift and cross-modal interference introduced during multimodal adaptation. Such loss is difficult to recover, even with targeted task-specific fine-tuning using standard objectives. Prior recovery approaches typically introduce additional modules that act as intermediate alignment layers to maintain or isolate modality-specific subspaces, which increases architectural complexity, adds parameters at inference time, and limits flexibility across models and settings. We propose LinguDistill, an adapter-free distillation method that restores linguistic capability by utilizing the original frozen LM as a teacher. We overcome the key challenge of enabling vision-conditioned teacher supervision by introducing layer-wise KV-cache sharing, which exposes the teacher to the student's multimodal representations without modifying the architecture of either model. We then selectively distill the teacher's strong linguistic signal on language-intensive data to recover language capability, while preserving the student's visual grounding on multimodal tasks. As a result, LinguDistill recovers sim10% of the performance lost on language and knowledge benchmarks, while maintaining comparable performance on vision-heavy tasks. Our findings demonstrate that linguistic capability can be recovered without additional modules, providing an efficient and practical solution to modality-specific degradation in multimodal models.

LinguDistill: Recuperación de la Capacidad Lingüística en Modelos de Lenguaje-Visión mediante Destilación Cross-Modal Selectiva

LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Resumen

Support