Melhorando a Distilação de Conhecimento sob Deslocamento Covariado Desconhecido por meio de Aumento de Dados Guiado por Confiança
Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation
June 2, 2025
Autores: Niclas Popp, Kevin Alexander Laube, Matthias Hein, Lukas Schott
cs.AI
Resumo
Grandes modelos de base treinados em extensos conjuntos de dados demonstram capacidades robustas de zero-shot em diversos domínios. Para replicar seu sucesso quando os dados e o tamanho do modelo são limitados, a destilação de conhecimento tornou-se uma ferramenta estabelecida para transferir conhecimento de modelos de base para pequenas redes estudante. No entanto, a eficácia da destilação é criticamente limitada pelos dados de treinamento disponíveis. Este trabalho aborda a questão prática comum de deslocamento de covariáveis na destilação de conhecimento, onde características espúrias aparecem durante o treinamento, mas não no momento do teste. Colocamos a questão: quando essas características espúrias são desconhecidas, mas um professor robusto está disponível, é possível que um estudante também se torne robusto a elas? Abordamos esse problema introduzindo uma nova estratégia de aumento de dados baseada em difusão que gera imagens maximizando a discordância entre o professor e o estudante, criando efetivamente amostras desafiadoras com as quais o estudante tem dificuldade. Experimentos demonstram que nossa abordagem melhora significativamente a precisão do pior grupo e do grupo médio no CelebA e SpuCo Birds, bem como o mAUC espúrio no ImageNet espúrio sob deslocamento de covariáveis, superando as abordagens de aumento de dados baseadas em difusão mais avançadas.
English
Large foundation models trained on extensive datasets demonstrate strong
zero-shot capabilities in various domains. To replicate their success when data
and model size are constrained, knowledge distillation has become an
established tool for transferring knowledge from foundation models to small
student networks. However, the effectiveness of distillation is critically
limited by the available training data. This work addresses the common
practical issue of covariate shift in knowledge distillation, where spurious
features appear during training but not at test time. We ask the question: when
these spurious features are unknown, yet a robust teacher is available, is it
possible for a student to also become robust to them? We address this problem
by introducing a novel diffusion-based data augmentation strategy that
generates images by maximizing the disagreement between the teacher and the
student, effectively creating challenging samples that the student struggles
with. Experiments demonstrate that our approach significantly improves worst
group and mean group accuracy on CelebA and SpuCo Birds as well as the spurious
mAUC on spurious ImageNet under covariate shift, outperforming state-of-the-art
diffusion-based data augmentation baselines