Het Opleiden van een Student-Expert via Semi-gesuperviseerde Distillatie van Foundation Modellen

Samenvatting

Fundamentele modellen bieden sterke perceptie, maar zijn vaak te rekenintensief voor implementatie, en aanpassing vereist doorgaans kostbare annotaties. Wij introduceren een semi-gesuperviseerd kennisdistillatie (SSKD) raamwerk dat vooraf getrainde visuele fundamentele modellen (VFM's) comprimeert tot compacte experts met behulp van beperkte gelabelde en overvloedige ongelabelde data, en concretiseren dit voor instantiesegmentatie waar per-pixel labels bijzonder kostbaar zijn. Het raamwerk verloopt in drie fasen: (1) domeinaanpassing van de VFM('s) via zelftraining met contrastieve calibratie, (2) kennisoverdracht middels een verenigde multi-objectieve lossfunctie, en (3) studentverfijning om resterende pseudo-label bias te mitigeren. Centraal in onze aanpak staat een instance-aware pixelgewijze contrastieve loss die maskscores en klassescores fuseert om informatieve negatieven te extraheren en duidelijke inter-instance marges af te dwingen. Door dit contrastieve signaal te handhaven tijdens zowel aanpassing als distillatie, aligneren we teacher- en student-embeddings en benutten we ongelabelde afbeeldingen effectiever. Op Cityscapes en ADE20K verbetert onze circa 11x kleinere student ten opzichte van zijn zero-shot VFM-teacher(s) met +11.9 en +8.6 AP, overtreft aangepaste teacher(s) met +3.4 en +1.5 AP, en presteert beter dan state-of-the-art SSKD-methoden op benchmarks.

English

Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our approx 11times smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.

Het Opleiden van een Student-Expert via Semi-gesuperviseerde Distillatie van Foundation Modellen

Training a Student Expert via Semi-Supervised Foundation Model Distillation

Samenvatting

Support