Verbesserung der Wissensdistillation bei unbekannter Kovariatenverschiebung durch vertrauensgeleitete Datenaugmentierung

papers.abstract

Große Foundation-Modelle, die auf umfangreichen Datensätzen trainiert wurden, zeigen starke Zero-Shot-Fähigkeiten in verschiedenen Domänen. Um ihren Erfolg zu replizieren, wenn Daten- und Modellgröße eingeschränkt sind, hat sich die Wissensdistillation als etabliertes Werkzeug erwiesen, um Wissen von Foundation-Modellen auf kleinere Studentennetzwerke zu übertragen. Die Effektivität der Distillation wird jedoch kritisch durch die verfügbaren Trainingsdaten begrenzt. Diese Arbeit befasst sich mit dem häufigen praktischen Problem des Kovariatenverschiebungs in der Wissensdistillation, bei dem während des Trainings trügerische Merkmale auftreten, die jedoch zur Testzeit nicht vorhanden sind. Wir stellen die Frage: Wenn diese trügerischen Merkmale unbekannt sind, aber ein robustes Lehrermodell verfügbar ist, ist es dann möglich, dass ein Studentennetzwerk ebenfalls robust gegenüber diesen Merkmalen wird? Wir lösen dieses Problem, indem wir eine neuartige, diffusionsbasierte Datenaugmentationsstrategie einführen, die Bilder erzeugt, indem die Diskrepanz zwischen dem Lehrer und dem Studenten maximiert wird. Dadurch werden anspruchsvolle Proben erstellt, mit denen der Student Schwierigkeiten hat. Experimente zeigen, dass unser Ansatz die Genauigkeit der schlechtesten Gruppe und der Durchschnittsgruppe auf CelebA und SpuCo Birds sowie das trügerische mAUC auf spurious ImageNet unter Kovariatenverschiebung signifikant verbessert und dabei state-of-the-art, diffusionsbasierte Datenaugmentations-Baselines übertrifft.

English

Large foundation models trained on extensive datasets demonstrate strong zero-shot capabilities in various domains. To replicate their success when data and model size are constrained, knowledge distillation has become an established tool for transferring knowledge from foundation models to small student networks. However, the effectiveness of distillation is critically limited by the available training data. This work addresses the common practical issue of covariate shift in knowledge distillation, where spurious features appear during training but not at test time. We ask the question: when these spurious features are unknown, yet a robust teacher is available, is it possible for a student to also become robust to them? We address this problem by introducing a novel diffusion-based data augmentation strategy that generates images by maximizing the disagreement between the teacher and the student, effectively creating challenging samples that the student struggles with. Experiments demonstrate that our approach significantly improves worst group and mean group accuracy on CelebA and SpuCo Birds as well as the spurious mAUC on spurious ImageNet under covariate shift, outperforming state-of-the-art diffusion-based data augmentation baselines

Verbesserung der Wissensdistillation bei unbekannter Kovariatenverschiebung durch vertrauensgeleitete Datenaugmentierung

Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation

papers.abstract

Support