Addestramento di un Esperto Studentesco tramite Distillazione Semi-Supervisionata di Modelli Fondamentali

Abstract

I modelli foundation offrono una percezione solida, ma spesso risultano troppo computazionalmente pesanti per essere implementati, e adattarli richiede tipicamente annotazioni costose. Introduciamo un framework di distillazione della conoscenza semi-supervisionata (SSKD) che comprime modelli foundation visivi (VFM) pre-addestrati in esperti compatti, utilizzando dati etichettati limitati e dati non etichettati abbondanti, e lo istanziamo per l'instance segmentation, dove le etichette per-pixel sono particolarmente costose. Il framework si articola in tre fasi: (1) adattamento al dominio del(i) VFM tramite self-training con calibrazione contrastiva, (2) trasferimento della conoscenza attraverso una funzione di perdita multi-obiettivo unificata, e (3) raffinamento dello studente per mitigare il bias residuo delle pseudo-etichette. Elemento centrale del nostro approccio è una perdita contrastiva pixel-wise e instance-aware che fonde i punteggi delle maschere e delle classi per estrarre negativi informativi e imporre margini inter-istanza chiari. Mantenendo questo segnale contrastivo sia durante l'adattamento che la distillazione, allineiamo gli embedding del teacher e dello studente e sfruttiamo più efficacemente le immagini non etichettate. Su Cityscapes e ADE20K, il nostro studente circa 11 volte più piccolo migliora il(i) suo(i) teacher VFM zero-shot di +11.9 e +8.6 AP, supera il(i) teacher adattato(i) di +3.4 e +1.5 AP, e supera i metodi SSKD all'avanguardia sui benchmark.

English

Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our approx 11times smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.

Addestramento di un Esperto Studentesco tramite Distillazione Semi-Supervisionata di Modelli Fondamentali

Training a Student Expert via Semi-Supervised Foundation Model Distillation

Abstract

Support