Maskerende Leraar en Versterkende Student voor het Destilleren van Visueel-Taalmodellen

Samenvatting

Grootschalige visueel-taalkundige modellen (VLM's) hebben recentelijk opmerkelijke vooruitgang geboekt in multimodaal begrip, maar hun enorme omvang maakt ze onpraktisch voor implementatie op mobiele of edge-apparaten. Dit creëert een behoefte aan compacte maar capabele VLM's die efficiënt kunnen leren van krachtige, grote leermodellen (teachers). Het distilleren van kennis van een grote teacher naar een kleine student blijft echter een uitdaging vanwege het grote formaatverschil: de student slaagt er vaak niet in de complexe, hoogdimensionale representaties van de teacher te reproduceren, wat leidt tot onstabiel leren en verminderde prestaties. Om dit aan te pakken, stellen wij Masters voor (Masking Teacher and Reinforcing Student), een masker-progressief reinforcement learning (RL) distillatiekader. Masters maskeert eerst niet-dominante gewichten van de teacher om onnodige complexiteit te verminderen, en herstelt de teacher vervolgens progressief door diens capaciteit tijdens de training geleidelijk te verhogen. Deze strategie stelt de student in staat op een soepele en stabiele manier rijkere representaties van de teacher aan te leren. Om de kennisoverdracht verder te verfijnen, integreert Masters een offline RL-fase met twee complementaire beloningen: een nauwkeurigheidsbeloning die de correctheid van de gegenereerde antwoorden meet, en een distillatiebeloning die het gemak kwantificeert van het overdragen van antwoorden van teacher naar student. In tegenstelling tot online 'think-answer' RL-paradigma's, die rekenintensief zijn en lange antwoorden genereren, benut onze offline RL vooraf gegenereerde antwoorden van gemaskeerde teachers. Deze bieden rijke doch efficiënte begeleiding, waardoor studenten sterke prestaties kunnen bereiken zonder het 'think-answer'-proces te doorlopen.

English

Large-scale vision-language models (VLMs) have recently achieved remarkable multimodal understanding, but their massive size makes them impractical for deployment on mobile or edge devices. This raises the need for compact yet capable VLMs that can efficiently learn from powerful large teachers. However, distilling knowledge from a large teacher to a small student remains challenging due to their large size gap: the student often fails to reproduce the teacher's complex, high-dimensional representations, leading to unstable learning and degraded performance. To address this, we propose Masters (Masking Teacher and Reinforcing Student), a mask-progressive reinforcement learning (RL) distillation framework. Masters first masks non-dominant weights of the teacher to reduce unnecessary complexity, then progressively restores the teacher by gradually increasing its capacity during training. This strategy allows the student to learn richer representations from the teacher in a smooth and stable manner. To further refine knowledge transfer, Masters integrates an offline RL stage with two complementary rewards: an accuracy reward that measures the correctness of the generated responses, and a distillation reward that quantifies the ease of transferring responses from teacher to student. Unlike online think-answer RL paradigms that are computationally expensive and generate lengthy responses, our offline RL leverages pre-generated responses from masked teachers. These provide rich yet efficient guidance, enabling students to achieve strong performance without requiring the think-answer process.

Maskerende Leraar en Versterkende Student voor het Destilleren van Visueel-Taalmodellen

Masking Teacher and Reinforcing Student for Distilling Vision-Language Models

Samenvatting

Support