Masquer l'enseignant et renforcer l'étudiant pour la distillation de modèles vision-langage

Résumé

Les modèles vision-langage à grande échelle (VLM) ont récemment atteint des capacités remarquables de compréhension multimodale, mais leur taille massive les rend peu pratiques pour un déploiement sur des appareils mobiles ou en périphérie. Cela soulève le besoin de VLM compacts mais performants, capables d'apprendre efficacement de grands enseignants puissants. Cependant, la distillation des connaissances d'un grand enseignant vers un petit étudiant reste difficile en raison de leur écart de taille important : l'étudiant échoue souvent à reproduire les représentations complexes et de haute dimension de l'enseignant, ce qui entraîne un apprentissage instable et une dégradation des performances. Pour résoudre ce problème, nous proposons Masters (Masking Teacher and Reinforcing Student), un cadre de distillation par apprentissage par renforcement (RL) progressif par masquage. Masters masque d'abord les poids non dominants de l'enseignant pour réduire la complexité inutile, puis restaure progressivement l'enseignant en augmentant graduellement sa capacité pendant l'entraînement. Cette stratégie permet à l'étudiant d'apprendre des représentations plus riches de l'enseignant de manière fluide et stable. Pour affiner davantage le transfert de connaissances, Masters intègre une phase de RL hors ligne avec deux récompenses complémentaires : une récompense de précision qui mesure l'exactitude des réponses générées, et une récompense de distillation qui quantifie la facilité de transfert des réponses de l'enseignant à l'étudiant. Contrairement aux paradigmes de RL en ligne de type « penser-répondre » qui sont coûteux en calcul et génèrent des réponses longues, notre RL hors ligne exploite des réponses pré-générées par des enseignants masqués. Celles-ci fournissent un guidage riche et efficace, permettant aux étudiants d'atteindre de solides performances sans nécessiter le processus de réflexion-réponse.

English

Large-scale vision-language models (VLMs) have recently achieved remarkable multimodal understanding, but their massive size makes them impractical for deployment on mobile or edge devices. This raises the need for compact yet capable VLMs that can efficiently learn from powerful large teachers. However, distilling knowledge from a large teacher to a small student remains challenging due to their large size gap: the student often fails to reproduce the teacher's complex, high-dimensional representations, leading to unstable learning and degraded performance. To address this, we propose Masters (Masking Teacher and Reinforcing Student), a mask-progressive reinforcement learning (RL) distillation framework. Masters first masks non-dominant weights of the teacher to reduce unnecessary complexity, then progressively restores the teacher by gradually increasing its capacity during training. This strategy allows the student to learn richer representations from the teacher in a smooth and stable manner. To further refine knowledge transfer, Masters integrates an offline RL stage with two complementary rewards: an accuracy reward that measures the correctness of the generated responses, and a distillation reward that quantifies the ease of transferring responses from teacher to student. Unlike online think-answer RL paradigms that are computationally expensive and generate lengthy responses, our offline RL leverages pre-generated responses from masked teachers. These provide rich yet efficient guidance, enabling students to achieve strong performance without requiring the think-answer process.

Masquer l'enseignant et renforcer l'étudiant pour la distillation de modèles vision-langage

Masking Teacher and Reinforcing Student for Distilling Vision-Language Models

Résumé

Support