Mascherare l'Insegnante e Rafforzare lo Studente per la Distillazione di Modelli Visione-Linguaggio
Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
December 23, 2025
Autori: Byung-Kwan Lee, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI
Abstract
I modelli visione-linguaggio (VLM) su larga scala hanno recentemente ottenuto risultati notevoli nella comprensione multimodale, ma le loro dimensioni massicce li rendono impraticabili per la distribuzione su dispositivi mobili o edge. Ciò solleva l'esigenza di VLM compatti ma capaci che possano apprendere efficientemente da insegnanti di grandi dimensioni e potenti. Tuttavia, la distillazione della conoscenza da un insegnante di grandi dimensioni a uno studente piccolo rimane impegnativa a causa del loro ampio divario dimensionale: lo studente spesso non riesce a riprodurre le rappresentazioni complesse e ad alta dimensionalità dell'insegnante, portando a un apprendimento instabile e a prestazioni degradate.
Per affrontare questo problema, proponiamo Masters (Masking Teacher and Reinforcing Student), un framework di distillazione per reinforcement learning (RL) progressivo basato sul masking. Masters prima maschera i pesi non dominanti dell'insegnante per ridurre la complessità non necessaria, poi ripristina progressivamente l'insegnante aumentandone gradualmente la capacità durante l'addestramento. Questa strategia consente allo studente di apprendere rappresentazioni più ricche dall'insegnante in modo fluido e stabile.
Per perfezionare ulteriormente il trasferimento di conoscenza, Masters integra una fase di RL offline con due ricompense complementari: una ricompensa di accuratezza che misura la correttezza delle risposte generate e una ricompensa di distillazione che quantifica la facilità di trasferire le risposte dall'insegnante allo studente. A differenza dei paradigmi di RL online "pensa-rispondi", che sono computazionalmente costosi e generano risposte lunghe, il nostro RL offline sfrutta risposte pre-generate da insegnanti mascherati. Queste forniscono una guida ricca ma efficiente, consentendo agli studenti di ottenere prestazioni solide senza richiedere il processo "pensa-rispondi".
English
Large-scale vision-language models (VLMs) have recently achieved remarkable multimodal understanding, but their massive size makes them impractical for deployment on mobile or edge devices. This raises the need for compact yet capable VLMs that can efficiently learn from powerful large teachers. However, distilling knowledge from a large teacher to a small student remains challenging due to their large size gap: the student often fails to reproduce the teacher's complex, high-dimensional representations, leading to unstable learning and degraded performance. To address this, we propose Masters (Masking Teacher and Reinforcing Student), a mask-progressive reinforcement learning (RL) distillation framework. Masters first masks non-dominant weights of the teacher to reduce unnecessary complexity, then progressively restores the teacher by gradually increasing its capacity during training. This strategy allows the student to learn richer representations from the teacher in a smooth and stable manner. To further refine knowledge transfer, Masters integrates an offline RL stage with two complementary rewards: an accuracy reward that measures the correctness of the generated responses, and a distillation reward that quantifies the ease of transferring responses from teacher to student. Unlike online think-answer RL paradigms that are computationally expensive and generate lengthy responses, our offline RL leverages pre-generated responses from masked teachers. These provide rich yet efficient guidance, enabling students to achieve strong performance without requiring the think-answer process.