ChatPaper.aiChatPaper

알려지지 않은 공변량 변화 하에서 신뢰도 기반 데이터 증강을 통한 지식 증류 개선

Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation

June 2, 2025
저자: Niclas Popp, Kevin Alexander Laube, Matthias Hein, Lukas Schott
cs.AI

초록

광범위한 데이터셋으로 학습된 대형 파운데이션 모델은 다양한 도메인에서 강력한 제로샷 능력을 보여줍니다. 데이터와 모델 크기가 제한된 상황에서 이러한 성공을 재현하기 위해, 지식 증류는 파운데이션 모델의 지식을 작은 학생 네트워크로 전달하는 확립된 도구로 자리 잡았습니다. 그러나 증류의 효과는 사용 가능한 학습 데이터에 의해 크게 제한됩니다. 본 연구는 학습 중에는 나타나지만 테스트 시에는 나타나지 않는 가짜 특징들로 인해 발생하는 공변량 변화라는 일반적인 실질적 문제를 다룹니다. 우리는 이러한 가짜 특징들이 알려져 있지 않지만 견고한 교사 모델이 사용 가능할 때, 학생 모델도 이에 대해 견고해질 수 있는지에 대한 질문을 제기합니다. 우리는 교사와 학생 간의 불일치를 극대화하여 이미지를 생성하는 새로운 확산 기반 데이터 증강 전략을 도입함으로써 이 문제를 해결합니다. 이는 학생 모델이 어려움을 겪는 도전적인 샘플을 효과적으로 생성합니다. 실험 결과, 우리의 접근 방식은 공변량 변화 하에서 CelebA와 SpuCo Birds에서의 최악 그룹 및 평균 그룹 정확도와 spurious ImageNet에서의 가짜 mAUC를 크게 향상시키며, 최신 확산 기반 데이터 증강 기준선을 능가하는 것으로 나타났습니다.
English
Large foundation models trained on extensive datasets demonstrate strong zero-shot capabilities in various domains. To replicate their success when data and model size are constrained, knowledge distillation has become an established tool for transferring knowledge from foundation models to small student networks. However, the effectiveness of distillation is critically limited by the available training data. This work addresses the common practical issue of covariate shift in knowledge distillation, where spurious features appear during training but not at test time. We ask the question: when these spurious features are unknown, yet a robust teacher is available, is it possible for a student to also become robust to them? We address this problem by introducing a novel diffusion-based data augmentation strategy that generates images by maximizing the disagreement between the teacher and the student, effectively creating challenging samples that the student struggles with. Experiments demonstrate that our approach significantly improves worst group and mean group accuracy on CelebA and SpuCo Birds as well as the spurious mAUC on spurious ImageNet under covariate shift, outperforming state-of-the-art diffusion-based data augmentation baselines
PDF42June 5, 2025