Улучшение дистилляции знаний при неизвестном ковариатном сдвиге с помощью дополнения данных, управляемого уверенностью
Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation
June 2, 2025
Авторы: Niclas Popp, Kevin Alexander Laube, Matthias Hein, Lukas Schott
cs.AI
Аннотация
Крупные базовые модели, обученные на обширных наборах данных, демонстрируют мощные возможности в задачах zero-shot в различных областях. Чтобы повторить их успех в условиях ограниченных данных и размера модели, дистилляция знаний стала устоявшимся инструментом для передачи знаний от базовых моделей к небольшим студенческим сетям. Однако эффективность дистилляции существенно ограничивается доступными обучающими данными. В данной работе рассматривается распространённая практическая проблема ковариационного сдвига в дистилляции знаний, когда в процессе обучения появляются ложные признаки, которые отсутствуют во время тестирования. Мы задаёмся вопросом: если эти ложные признаки неизвестны, но доступен устойчивый учитель, может ли студент также стать устойчивым к ним? Мы решаем эту проблему, предлагая новую стратегию аугментации данных на основе диффузии, которая генерирует изображения, максимизируя расхождение между учителем и студентом, тем самым создавая сложные примеры, с которыми студент испытывает трудности. Эксперименты показывают, что наш подход значительно улучшает точность в наихудшей и средней группах на наборах данных CelebA и SpuCo Birds, а также spurious mAUC на spurious ImageNet при ковариационном сдвиге, превосходя современные базовые методы аугментации данных на основе диффузии.
English
Large foundation models trained on extensive datasets demonstrate strong
zero-shot capabilities in various domains. To replicate their success when data
and model size are constrained, knowledge distillation has become an
established tool for transferring knowledge from foundation models to small
student networks. However, the effectiveness of distillation is critically
limited by the available training data. This work addresses the common
practical issue of covariate shift in knowledge distillation, where spurious
features appear during training but not at test time. We ask the question: when
these spurious features are unknown, yet a robust teacher is available, is it
possible for a student to also become robust to them? We address this problem
by introducing a novel diffusion-based data augmentation strategy that
generates images by maximizing the disagreement between the teacher and the
student, effectively creating challenging samples that the student struggles
with. Experiments demonstrate that our approach significantly improves worst
group and mean group accuracy on CelebA and SpuCo Birds as well as the spurious
mAUC on spurious ImageNet under covariate shift, outperforming state-of-the-art
diffusion-based data augmentation baselines