Distillazione della Conoscenza Generalizzabile da Modelli Fondamentali Visivi per la Segmentazione Semantica

Abstract

La distillazione della conoscenza (KD) è stata ampiamente applicata nella segmentazione semantica per comprimere modelli di grandi dimensioni, ma gli approcci convenzionali preservano principalmente l'accuratezza in-dominio trascurando la generalizzazione out-of-domain, essenziale in presenza di cambiamenti distributivi. Questa limitazione diventa più severa con l'emergere dei modelli fondazione per la visione (VFM): sebbene i VFM mostrino una forte robustezza su dati non visti, distillandoli con la KD convenzionale si compromette spesso questa capacità. Proponiamo la Distillazione della Conoscenza Generalizzabile (GKD), un framework multi-stadio che migliora esplicitamente la generalizzazione. GKD disaccoppia l'apprendimento della rappresentazione dall'apprendimento del compito. Nella prima fase, lo studente acquisisce rappresentazioni agnostiche al dominio attraverso una distillazione selettiva delle feature, mentre nella seconda fase queste rappresentazioni vengono congelate per l'adattamento al compito, mitigando così l'overfitting sui domini visibili. Per supportare ulteriormente il transfer, introduciamo un meccanismo di distillazione soft basato su query, in cui le feature dello studente fungono da query per le rappresentazioni del docente per recuperare selettivamente conoscenza spaziale trasferibile dai VFM. Esperimenti estesi su cinque benchmark di generalizzazione di dominio dimostrano che GKD supera costantemente i metodi KD esistenti, ottenendo miglioramenti medi di +1,9% nella distillazione foundation-to-foundation (F2F) e +10,6% in quella foundation-to-local (F2L). Il codice sarà disponibile su https://github.com/Younger-hua/GKD.

English

Knowledge distillation (KD) has been widely applied in semantic segmentation to compress large models, but conventional approaches primarily preserve in-domain accuracy while neglecting out-of-domain generalization, which is essential under distribution shifts. This limitation becomes more severe with the emergence of vision foundation models (VFMs): although VFMs exhibit strong robustness on unseen data, distilling them with conventional KD often compromises this ability. We propose Generalizable Knowledge Distillation (GKD), a multi-stage framework that explicitly enhances generalization. GKD decouples representation learning from task learning. In the first stage, the student acquires domain-agnostic representations through selective feature distillation, and in the second stage, these representations are frozen for task adaptation, thereby mitigating overfitting to visible domains. To further support transfer, we introduce a query-based soft distillation mechanism, where student features act as queries to teacher representations to selectively retrieve transferable spatial knowledge from VFMs. Extensive experiments on five domain generalization benchmarks demonstrate that GKD consistently outperforms existing KD methods, achieving average gains of +1.9% in foundation-to-foundation (F2F) and +10.6% in foundation-to-local (F2L) distillation. The code will be available at https://github.com/Younger-hua/GKD.

Distillazione della Conoscenza Generalizzabile da Modelli Fondamentali Visivi per la Segmentazione Semantica

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Abstract

Support