Entrenamiento de un Estudiante Experto mediante Destilación Semi-Supervisada de Modelos Fundacionales

Resumen

Los modelos fundacionales ofrecen una percepción sólida, pero suelen ser computacionalmente demasiado pesados para su implementación, y adaptarlos normalmente requiere anotaciones costosas. Presentamos un marco de destilación de conocimiento semi-supervisado (SSKD) que comprime modelos fundacionales de visión (VFMs) preentrenados en expertos compactos utilizando datos etiquetados limitados y abundantes datos no etiquetados, y lo instanciamos para la segmentación de instancias, donde las etiquetas por píxel son particularmente costosas. El marco se desarrolla en tres etapas: (1) adaptación de dominio del/los VFM mediante auto-entrenamiento con calibración contrastiva, (2) transferencia de conocimiento a través de una pérdida multiobjetivo unificada, y (3) refinamiento del estudiante para mitigar el sesgo residual de las pseudoetiquetas. Es central en nuestro enfoque una pérdida contrastiva a nivel de píxel consciente de la instancia, que fusiona las puntuaciones de máscara y clase para extraer negativos informativos y aplicar márgenes claros entre instancias. Al mantener esta señal contrastiva tanto en la adaptación como en la destilación, alineamos los *embeddings* del profesor y del estudiante y aprovechamos más eficazmente las imágenes no etiquetadas. En Cityscapes y ADE20K, nuestro estudiante aproximadamente 11 veces más pequeño mejora a su(s) profesor(es) VFM *zero-shot* en +11.9 y +8.6 AP, supera al(los) profesor(es) adaptado(s) en +3.4 y +1.5 AP, y supera a los métodos SSKD de última generación en los puntos de referencia.

English

Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our approx 11times smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.

Entrenamiento de un Estudiante Experto mediante Destilación Semi-Supervisada de Modelos Fundacionales

Training a Student Expert via Semi-Supervised Foundation Model Distillation

Resumen

Support