Treinamento de um Especialista Estudante via Destilação Semi-Supervisionada de Modelo de Base

Resumo

Os modelos de base oferecem percepção robusta, mas geralmente são computacionalmente pesados demais para implantação, e sua adaptação normalmente requer anotações custosas. Introduzimos uma estrutura de destilação de conhecimento semissupervisionada (SSKD) que comprime modelos de base de visão (VFMs) pré-treinados em especialistas compactos usando dados limitados rotulados e abundantes não rotulados, e a instanciamos para segmentação de instância, onde rótulos por pixel são particularmente caros. A estrutura desdobra-se em três etapas: (1) adaptação de domínio do(s) VFM(s) via auto-treinamento com calibração contrastiva, (2) transferência de conhecimento por meio de uma perda multiobjetivo unificada, e (3) refinamento do estudante para mitigar viés residual de pseudo-rótulos. Central à nossa abordagem é uma perda contrastiva pixel a pixel consciente da instância, que funde pontuações de máscara e classe para extrair negativos informativos e impor margens claras entre instâncias. Ao manter este sinal contrastivo tanto na adaptação quanto na destilação, alinhamos os embeddings do professor e do estudante e aproveitamos mais efetivamente imagens não rotuladas. No Cityscapes e ADE20K, nosso estudante aproximadamente 11 vezes menor supera seu(s) professor(es) VFM de disparo zero em +11,9 e +8,6 AP, supera o(s) professor(es) adaptado(s) em +3,4 e +1,5 AP, e supera métodos state-of-the-art de SSKD em benchmarks.

English

Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our approx 11times smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.

Treinamento de um Especialista Estudante via Destilação Semi-Supervisionada de Modelo de Base

Training a Student Expert via Semi-Supervised Foundation Model Distillation

Resumo

Support