Miglioramento della Distillazione della Conoscenza in Condizioni di Cambiamento Covariato Sconosciuto Attraverso l'Aumento dei Dati Guidato dalla Confidenza
Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation
June 2, 2025
Autori: Niclas Popp, Kevin Alexander Laube, Matthias Hein, Lukas Schott
cs.AI
Abstract
I grandi modelli di base addestrati su ampi dataset dimostrano forti capacità zero-shot in vari domini. Per replicare il loro successo quando i dati e le dimensioni del modello sono limitati, la distillazione della conoscenza è diventata uno strumento consolidato per trasferire conoscenza dai modelli di base a piccole reti studente. Tuttavia, l'efficacia della distillazione è fortemente limitata dai dati di addestramento disponibili. Questo lavoro affronta il comune problema pratico dello spostamento di covarianza nella distillazione della conoscenza, dove caratteristiche spurie compaiono durante l'addestramento ma non al momento del test. Ci poniamo la domanda: quando queste caratteristiche spurie sono sconosciute, ma è disponibile un insegnante robusto, è possibile che anche uno studente diventi robusto a esse? Affrontiamo questo problema introducendo una nuova strategia di aumento dei dati basata sulla diffusione che genera immagini massimizzando il disaccordo tra l'insegnante e lo studente, creando efficacemente campioni impegnativi con cui lo studente fatica. Gli esperimenti dimostrano che il nostro approccio migliora significativamente l'accuratezza del gruppo peggiore e del gruppo medio su CelebA e SpuCo Birds, nonché lo spurious mAUC su spurious ImageNet in caso di spostamento di covarianza, superando le baseline di aumento dei dati basate sulla diffusione allo stato dell'arte.
English
Large foundation models trained on extensive datasets demonstrate strong
zero-shot capabilities in various domains. To replicate their success when data
and model size are constrained, knowledge distillation has become an
established tool for transferring knowledge from foundation models to small
student networks. However, the effectiveness of distillation is critically
limited by the available training data. This work addresses the common
practical issue of covariate shift in knowledge distillation, where spurious
features appear during training but not at test time. We ask the question: when
these spurious features are unknown, yet a robust teacher is available, is it
possible for a student to also become robust to them? We address this problem
by introducing a novel diffusion-based data augmentation strategy that
generates images by maximizing the disagreement between the teacher and the
student, effectively creating challenging samples that the student struggles
with. Experiments demonstrate that our approach significantly improves worst
group and mean group accuracy on CelebA and SpuCo Birds as well as the spurious
mAUC on spurious ImageNet under covariate shift, outperforming state-of-the-art
diffusion-based data augmentation baselines