Amélioration de la distillation des connaissances sous décalage de covariable inconnu grâce à l'augmentation de données guidée par la confiance

papers.abstract

Les grands modèles de fondation entraînés sur des ensembles de données étendus démontrent de solides capacités de généralisation en contexte zéro-shot dans divers domaines. Pour reproduire leur succès lorsque les données et la taille du modèle sont limitées, la distillation de connaissances est devenue un outil établi pour transférer les connaissances des modèles de fondation vers de petits réseaux étudiants. Cependant, l'efficacité de la distillation est fortement limitée par les données d'entraînement disponibles. Ce travail aborde le problème pratique courant du décalage de covariable dans la distillation de connaissances, où des caractéristiques fallacieuses apparaissent pendant l'entraînement mais pas au moment du test. Nous posons la question suivante : lorsque ces caractéristiques fallacieuses sont inconnues, mais qu'un enseignant robuste est disponible, est-il possible pour un étudiant de devenir également robuste à celles-ci ? Nous abordons ce problème en introduisant une nouvelle stratégie d'augmentation de données basée sur la diffusion, qui génère des images en maximisant le désaccord entre l'enseignant et l'étudiant, créant ainsi des échantillons difficiles avec lesquels l'étudiant peine. Les expériences démontrent que notre approche améliore significativement la précision du pire groupe et du groupe moyen sur CelebA et SpuCo Birds, ainsi que le mAUC fallacieux sur spurious ImageNet en cas de décalage de covariable, surpassant les méthodes d'augmentation de données basées sur la diffusion de l'état de l'art.

English

Large foundation models trained on extensive datasets demonstrate strong zero-shot capabilities in various domains. To replicate their success when data and model size are constrained, knowledge distillation has become an established tool for transferring knowledge from foundation models to small student networks. However, the effectiveness of distillation is critically limited by the available training data. This work addresses the common practical issue of covariate shift in knowledge distillation, where spurious features appear during training but not at test time. We ask the question: when these spurious features are unknown, yet a robust teacher is available, is it possible for a student to also become robust to them? We address this problem by introducing a novel diffusion-based data augmentation strategy that generates images by maximizing the disagreement between the teacher and the student, effectively creating challenging samples that the student struggles with. Experiments demonstrate that our approach significantly improves worst group and mean group accuracy on CelebA and SpuCo Birds as well as the spurious mAUC on spurious ImageNet under covariate shift, outperforming state-of-the-art diffusion-based data augmentation baselines

Amélioration de la distillation des connaissances sous décalage de covariable inconnu grâce à l'augmentation de données guidée par la confiance

Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation

papers.abstract

Support