Formation d'un Expert Étudiant par Distillation Semi-Supervisée de Modèles de Fondation

Résumé

Les modèles de fondation offrent une perception robuste mais sont souvent trop lourds sur le plan computationnel pour être déployés, et leur adaptation nécessite généralement des annotations coûteuses. Nous présentons un cadre de distillation de connaissances semi-supervisée (SSKD) qui compresse les modèles de fondation visuelle (VFM) pré-entraînés en experts compacts en utilisant des données étiquetées limitées et des données non étiquetées abondantes, et l'instancions pour la segmentation d'instances où les étiquettes par pixel sont particulièrement onéreuses. Le cadre se déroule en trois étapes : (1) l'adaptation du domaine des VFM(s) via l'auto-apprentissage avec calibration contrastive, (2) le transfert de connaissances par une fonction de perte multi-objectif unifiée, et (3) l'affinage de l'élève pour atténuer le biais résiduel des pseudo-étiquettes. Au cœur de notre approche se trouve une perte contrastive pixel-wise consciente des instances qui fusionne les scores de masque et de classe pour extraire des négatifs informatifs et imposer des margres inter-instances claires. En maintenant ce signal contrastif à la fois lors de l'adaptation et de la distillation, nous alignons les embeddings du professeur et de l'élève et exploitons plus efficacement les images non étiquetées. Sur Cityscapes et ADE20K, notre élève environ 11 fois plus petit améliore ses professeurs VFM zero-shot de +11,9 et +8,6 AP, dépasse les professeurs adaptés de +3,4 et +1,5 AP, et surpasse les méthodes SSKD de pointe sur les benchmarks.

English

Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our approx 11times smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.

Formation d'un Expert Étudiant par Distillation Semi-Supervisée de Modèles de Fondation

Training a Student Expert via Semi-Supervised Foundation Model Distillation

Résumé

Support