Обучение студента-эксперта с помощью полуконтролируемой дистилляции фундаментальной модели

Аннотация

Базовые модели обладают мощными перцептивными способностями, но часто оказываются слишком вычислительно сложными для практического развертывания, а их адаптация обычно требует дорогостоящей разметки. Мы представляем полуавтоматическую структуру дистилляции знаний (SSKD), которая сжимает предобученные визуальные базовые модели (VFMs) в компактные эксперты, используя ограниченные размеченные и обширные неразмеченные данные, и реализуем ее для задачи сегментации экземпляров, где покомпонентная разметка особенно затратна. Структура реализуется в три этапа: (1) адаптация VFM к домену с помощью самообучения с контрастной калибровкой, (2) передача знаний через унифицированную многокомпонентную функцию потерь и (3) доработка студенческой модели для снижения остаточного смещения псевдометок. Ключевым элементом нашего подхода является учитывающий экземпляры покомпонентный контрастный loss, который объединяет оценки масок и классов для извлечения информативных негативных примеров и обеспечения четких межэкземплярных границ. Сохраняя этот контрастный сигнал как на этапе адаптации, так и на этапе дистилляции, мы выравниваем эмбеддинги учителя и ученика и более эффективно используем неразмеченные изображения. На наборах данных Cityscapes и ADE20K наша студенческая модель, примерно в 11 раз меньшая, превосходит своего учителя (VFM с нулевым сдвигом) на +11.9 и +8.6 AP, адаптированного учителя — на +3.4 и +1.5 AP, а также опережает современные методы SSKD по бенчмаркам.

English

Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our approx 11times smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.

Обучение студента-эксперта с помощью полуконтролируемой дистилляции фундаментальной модели

Training a Student Expert via Semi-Supervised Foundation Model Distillation

Аннотация

Support