Masking Teacher und Stärkung des Student für die Destillation von Vision-Language-Modellen
Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
December 23, 2025
Autoren: Byung-Kwan Lee, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI
Zusammenfassung
Große visuell-sprachliche Modelle (VLMs) haben kürzlich bemerkenswertes multimodales Verständnis erreicht, doch ihre enorme Größe macht sie für den Einsatz auf mobilen oder Edge-Geräten unpraktisch. Dies weckt den Bedarf an kompakten, aber leistungsfähigen VLMs, die effizient von leistungsstarken großen Lehrmodellen lernen können. Die Wissensdistillation von einem großen Lehrer- zu einem kleinen Schülermodell bleibt jedoch aufgrund der großen Größenkluft eine Herausforderung: Der Schüler reproduziert oft die komplexen, hochdimensionalen Repräsentationen des Lehrers nicht, was zu instabilem Lernen und verschlechterter Leistung führt. Um dies zu adressieren, schlagen wir Masters (Masking Teacher and Reinforcing Student) vor, ein Masken-progressives Reinforcement-Learning-(RL)-Distillationsframework. Masters maskiert zunächst nicht-dominante Gewichte des Lehrers, um unnötige Komplexität zu reduzieren, und stellt den Lehrer dann progressiv wieder her, indem dessen Kapazität während des Trainings schrittweise erhöht wird. Diese Strategie ermöglicht es dem Schüler, auf glatte und stabile Weise reichhaltigere Repräsentationen vom Lehrer zu erlernen. Um die Wissensübertragung weiter zu verfeinern, integriert Masters eine Offline-RL-Phase mit zwei komplementären Belohnungen: einer Genauigkeitsbelohnung, die die Korrektheit der generierten Antworten misst, und einer Distillationsbelohnung, die die Leichtigkeit der Antwortübertragung vom Lehrer zum Schüler quantifiziert. Im Gegensatz zu rechenintensiven Online-Think-Answer-RL-Paradigmen, die lange Antworten generieren, nutzt unser Offline-RL vorab generierte Antworten maskierter Lehrer. Diese bieten reichhaltige und dennoch effiziente Guidance, wodurch Schüler eine hohe Leistung erreichen können, ohne den Think-Answer-Prozess zu benötigen.
English
Large-scale vision-language models (VLMs) have recently achieved remarkable multimodal understanding, but their massive size makes them impractical for deployment on mobile or edge devices. This raises the need for compact yet capable VLMs that can efficiently learn from powerful large teachers. However, distilling knowledge from a large teacher to a small student remains challenging due to their large size gap: the student often fails to reproduce the teacher's complex, high-dimensional representations, leading to unstable learning and degraded performance. To address this, we propose Masters (Masking Teacher and Reinforcing Student), a mask-progressive reinforcement learning (RL) distillation framework. Masters first masks non-dominant weights of the teacher to reduce unnecessary complexity, then progressively restores the teacher by gradually increasing its capacity during training. This strategy allows the student to learn richer representations from the teacher in a smooth and stable manner. To further refine knowledge transfer, Masters integrates an offline RL stage with two complementary rewards: an accuracy reward that measures the correctness of the generated responses, and a distillation reward that quantifies the ease of transferring responses from teacher to student. Unlike online think-answer RL paradigms that are computationally expensive and generate lengthy responses, our offline RL leverages pre-generated responses from masked teachers. These provide rich yet efficient guidance, enabling students to achieve strong performance without requiring the think-answer process.