半教師あり基盤モデル蒸留による学生エキスパートの訓練
Training a Student Expert via Semi-Supervised Foundation Model Distillation
April 4, 2026
著者: Pardis Taghavi, Tian Liu, Renjie Li, Reza Langari, Zhengzhong Tu
cs.AI
要旨
ファウンデーションモデルは優れた認識性能を発揮するが、計算負荷が高く実用展開が困難であり、適応には通常高コストなアノテーションが必要となる。本研究では、事前学習済み視覚ファウンデーションモデル(VFM)を、限られたラベル付きデータと豊富なラベルなしデータを用いてコンパクトな専門家モデルに圧縮する半教師あり知識蒸留(SSKD)フレームワークを提案し、特にピクセル単位のラベル付けが高コストなインスタンスセグメンテーションタスクにおいて具体化する。本フレームワークは3段階で進行する:(1)対照的較正を伴う自己学習によるVFMのドメイン適応、(2)統合された多目的損失関数を通じた知識転移、(3)残留する擬似ラベルバイアスを軽減するための生徒モデルの精密化。本手法の中核は、マスクスコアとクラススコアを統合して情報量の多いネガティブサンプルを抽出し、インスタンス間の明確なマージンを強化する、インスタンス認識型ピクセル単位対照損失である。適応と蒸留の両段階でこの対照的信号を維持することにより、教師モデルと生徒モデルの埋め込みを整合させ、ラベルなし画像をより効果的に活用する。CityscapesおよびADE20Kデータセットにおいて、約11倍小型化された生徒モデルは、ゼロショットVFM教師モデルをAPで+11.9、+8.6ポイント上回り、適応済み教師モデルを+3.4、+1.5ポイント上回るとともに、ベンチマークで最先端のSSKD手法を凌駕する性能を示した。
English
Foundation models deliver strong perception but are often too computationally heavy to deploy, and adapting them typically requires costly annotations. We introduce a semi-supervised knowledge distillation (SSKD) framework that compresses pre-trained vision foundation models (VFMs) into compact experts using limited labeled and abundant unlabeled data, and instantiate it for instance segmentation where per-pixel labels are particularly expensive. The framework unfolds in three stages: (1) domain adaptation of the VFM(s) via self-training with contrastive calibration, (2) knowledge transfer through a unified multi-objective loss, and (3) student refinement to mitigate residual pseudo-label bias. Central to our approach is an instance-aware pixel-wise contrastive loss that fuses mask and class scores to extract informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and more effectively leverage unlabeled images. On Cityscapes and ADE20K, our approx 11times smaller student improves over its zero-shot VFM teacher(s) by +11.9 and +8.6 AP, surpasses adapted teacher(s) by +3.4 and +1.5 AP, and outperforms state-of-the-art SSKD methods on benchmarks.