Distilación de Conocimiento Generalizable desde Modelos Fundacionales de Visión para Segmentación Semántica

Resumen

La destilación de conocimiento (KD) se ha aplicado ampliamente en segmentación semántica para comprimir modelos grandes, pero los enfoques convencionales priorizan principalmente la precisión intra-dominio, descuidando la generalización fuera del dominio, que es esencial bajo cambios de distribución. Esta limitación se agrava con la aparición de los modelos fundacionales de visión (VFMs): aunque los VFMs exhiben una gran robustez en datos no vistos, destilarlos con KD convencional a menudo compromete esta capacidad. Proponemos la Destilación de Conocimiento Generalizable (GKD), un marco multi-etapa que mejora explícitamente la generalización. GKD desacopla el aprendizaje de representaciones del aprendizaje de tareas. En la primera etapa, el estudiante adquiere representaciones independientes del dominio mediante destilación selectiva de características, y en la segunda etapa, estas representaciones se congelan para la adaptación a la tarea, mitigando así el sobreajuste a dominios visibles. Para apoyar aún más la transferencia, introducimos un mecanismo de destilación suave basado en consultas, donde las características del estudiante actúan como consultas a las representaciones del profesor para recuperar selectivamente conocimiento espacial transferible de los VFMs. Experimentos exhaustivos en cinco benchmarks de generalización de dominio demuestran que GKD supera consistentemente a los métodos de KD existentes, logrando mejoras promedio de +1.9% en destilación fundacional-a-fundacional (F2F) y +10.6% en destilación fundacional-a-local (F2L). El código estará disponible en https://github.com/Younger-hua/GKD.

English

Knowledge distillation (KD) has been widely applied in semantic segmentation to compress large models, but conventional approaches primarily preserve in-domain accuracy while neglecting out-of-domain generalization, which is essential under distribution shifts. This limitation becomes more severe with the emergence of vision foundation models (VFMs): although VFMs exhibit strong robustness on unseen data, distilling them with conventional KD often compromises this ability. We propose Generalizable Knowledge Distillation (GKD), a multi-stage framework that explicitly enhances generalization. GKD decouples representation learning from task learning. In the first stage, the student acquires domain-agnostic representations through selective feature distillation, and in the second stage, these representations are frozen for task adaptation, thereby mitigating overfitting to visible domains. To further support transfer, we introduce a query-based soft distillation mechanism, where student features act as queries to teacher representations to selectively retrieve transferable spatial knowledge from VFMs. Extensive experiments on five domain generalization benchmarks demonstrate that GKD consistently outperforms existing KD methods, achieving average gains of +1.9% in foundation-to-foundation (F2F) and +10.6% in foundation-to-local (F2L) distillation. The code will be available at https://github.com/Younger-hua/GKD.

Distilación de Conocimiento Generalizable desde Modelos Fundacionales de Visión para Segmentación Semántica

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Resumen

Support