LinguDistill: Wiederherstellung linguistischer Fähigkeiten in Vision-Sprache-Modellen durch selektive cross-modale Distillation

Zusammenfassung

Die Anpassung vortrainierter Sprachmodelle (LMs) zu visuell-sprachlichen Modellen (VLMs) kann deren ursprüngliche linguistische Fähigkeiten beeinträchtigen, was auf Repräsentationsverschiebungen und intermodale Interferenzen während der multimodalen Adaptation zurückzuführen ist. Dieser Verlust ist schwer rückgängig zu machen, selbst mit gezieltem, aufgabenspezifischem Fine-Tuning unter Verwendung standardmäßiger Zielfunktionen. Bisherige Ansätze zur Wiederherstellung führen typischerweise zusätzliche Module ein, die als intermediäre Alignment-Schichten fungieren, um modalspezifische Teilräume zu erhalten oder zu isolieren. Dies erhöht die Architekturkomplexität, fügt Parameter zur Inferenzzeit hinzu und schränkt die Flexibilität über verschiedene Modelle und Einstellungen hinweg ein. Wir schlagen LinguDistill vor, eine Adapter-freie Distillationsmethode, die linguistische Fähigkeiten durch Nutzung des ursprünglichen eingefrorenen LMs als Lehrer-Modell wiederherstellt. Wir bewältigen die zentrale Herausforderung, vision-bedingte Lehrer-Supervision zu ermöglichen, durch die Einführung von layer-weiser KV-Cache-Freigabe, die den Lehrer den multimodalen Repräsentationen des Schülers aussetzt, ohne die Architektur eines der Modelle zu verändern. Anschließend distillieren wir selektiv das starke linguistische Signal des Lehrers auf sprachintensiven Daten, um Sprachfähigkeiten wiederherzustellen, während die visuelle Verankerung des Schülers für multimodale Aufgaben erhalten bleibt. Infolgedessen stellt LinguDistill etwa 10 % der auf Sprach- und Wissensbenchmarks verlorenen Leistung wieder her, bei vergleichbarer Leistung auf visuell dominierten Aufgaben. Unsere Ergebnisse zeigen, dass linguistische Fähigkeiten ohne zusätzliche Module wiederhergestellt werden können, was eine effiziente und praktikable Lösung für modalspezifische Leistungseinbußen in multimodalen Modellen darstellt.

English

Adapting pretrained language models (LMs) into vision-language models (VLMs) can degrade their native linguistic capability due to representation shift and cross-modal interference introduced during multimodal adaptation. Such loss is difficult to recover, even with targeted task-specific fine-tuning using standard objectives. Prior recovery approaches typically introduce additional modules that act as intermediate alignment layers to maintain or isolate modality-specific subspaces, which increases architectural complexity, adds parameters at inference time, and limits flexibility across models and settings. We propose LinguDistill, an adapter-free distillation method that restores linguistic capability by utilizing the original frozen LM as a teacher. We overcome the key challenge of enabling vision-conditioned teacher supervision by introducing layer-wise KV-cache sharing, which exposes the teacher to the student's multimodal representations without modifying the architecture of either model. We then selectively distill the teacher's strong linguistic signal on language-intensive data to recover language capability, while preserving the student's visual grounding on multimodal tasks. As a result, LinguDistill recovers sim10% of the performance lost on language and knowledge benchmarks, while maintaining comparable performance on vision-heavy tasks. Our findings demonstrate that linguistic capability can be recovered without additional modules, providing an efficient and practical solution to modality-specific degradation in multimodal models.

LinguDistill: Wiederherstellung linguistischer Fähigkeiten in Vision-Sprache-Modellen durch selektive cross-modale Distillation

LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Zusammenfassung

Support