Mejora de la Distilación de Conocimiento Bajo Cambio Covariante Desconocido Mediante Aumento de Datos Guiado por Confianza

Resumen

Los grandes modelos fundamentales entrenados en conjuntos de datos extensos demuestran capacidades sólidas de zero-shot en diversos dominios. Para replicar su éxito cuando los datos y el tamaño del modelo están limitados, la destilación de conocimiento se ha convertido en una herramienta establecida para transferir conocimiento desde modelos fundamentales a redes estudiantiles pequeñas. Sin embargo, la efectividad de la destilación está críticamente limitada por los datos de entrenamiento disponibles. Este trabajo aborda el problema práctico común del cambio de covariables en la destilación de conocimiento, donde características espurias aparecen durante el entrenamiento pero no en el momento de la prueba. Nos planteamos la pregunta: cuando estas características espurias son desconocidas, pero se dispone de un profesor robusto, ¿es posible que un estudiante también se vuelva robusto frente a ellas? Abordamos este problema introduciendo una novedosa estrategia de aumento de datos basada en difusión que genera imágenes maximizando el desacuerdo entre el profesor y el estudiante, creando efectivamente muestras desafiantes con las que el estudiante tiene dificultades. Los experimentos demuestran que nuestro enfoque mejora significativamente la precisión del peor grupo y del grupo promedio en CelebA y SpuCo Birds, así como el mAUC espurio en ImageNet espurio bajo cambio de covariables, superando a los baselines de aumento de datos basados en difusión de última generación.

English

Large foundation models trained on extensive datasets demonstrate strong zero-shot capabilities in various domains. To replicate their success when data and model size are constrained, knowledge distillation has become an established tool for transferring knowledge from foundation models to small student networks. However, the effectiveness of distillation is critically limited by the available training data. This work addresses the common practical issue of covariate shift in knowledge distillation, where spurious features appear during training but not at test time. We ask the question: when these spurious features are unknown, yet a robust teacher is available, is it possible for a student to also become robust to them? We address this problem by introducing a novel diffusion-based data augmentation strategy that generates images by maximizing the disagreement between the teacher and the student, effectively creating challenging samples that the student struggles with. Experiments demonstrate that our approach significantly improves worst group and mean group accuracy on CelebA and SpuCo Birds as well as the spurious mAUC on spurious ImageNet under covariate shift, outperforming state-of-the-art diffusion-based data augmentation baselines

Mejora de la Distilación de Conocimiento Bajo Cambio Covariante Desconocido Mediante Aumento de Datos Guiado por Confianza

Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation

Resumen

Support