PCoreSet : Apprentissage actif efficace par distillation de connaissances à partir de modèles vision-langage
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models
June 1, 2025
Auteurs: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang
cs.AI
Résumé
La distillation de connaissances (KD) est un cadre largement utilisé pour entraîner des modèles compacts et spécifiques à une tâche en exploitant les connaissances des modèles enseignants. Cependant, son application à l'apprentissage actif (AL), qui vise à minimiser les coûts d'annotation par une sélection itérative d'échantillons, reste peu explorée. Cet écart découle du fait que la KD suppose généralement un accès à des données étiquetées suffisantes, alors que l'AL opère dans des scénarios de pénurie de données où les modèles enseignants spécifiques à la tâche sont souvent indisponibles. Dans cet article, nous présentons ActiveKD, un cadre qui intègre l'AL à la KD en exploitant les capacités zero-shot et few-shot des grands modèles vision-langage (VLMs). Un aspect clé d'ActiveKD est le biais de prédiction structuré des VLMs — c'est-à-dire que leurs prédictions forment des clusters dans l'espace des probabilités. Nous considérons cette structure comme un biais inductif du modèle enseignant, capturant des motifs de sortie généralisables bénéfiques à l'apprentissage de l'élève. Pour exploiter ce biais, nous proposons Probabilistic CoreSet (PCoreSet), une stratégie de sélection qui maximise la couverture dans l'espace des probabilités plutôt que dans l'espace des caractéristiques. PCoreSet sélectionne stratégiquement des échantillons non étiquetés catégoriquement diversifiés, facilitant un transfert plus efficace des connaissances de l'enseignant sous des budgets d'annotation limités. Les évaluations sur 11 ensembles de données montrent que PCoreSet surpasse systématiquement les méthodes de sélection existantes dans le cadre d'ActiveKD, faisant progresser la recherche à l'intersection de l'AL et de la KD.
English
Knowledge distillation (KD) is a widely used framework for training compact,
task-specific models by leveraging the knowledge of teacher models. However,
its application to active learning (AL), which aims to minimize annotation
costs through iterative sample selection, remains underexplored. This gap stems
from the fact that KD typically assumes access to sufficient labeled data,
whereas AL operates in data-scarce scenarios where task-specific teacher models
are often unavailable. In this paper, we introduce ActiveKD, a framework that
integrates AL with KD by leveraging the zero- and few-shot capabilities of
large vision-language models (VLMs). A key aspect of ActiveKD is the structured
prediction bias of VLMs -- i.e., their predictions form clusters in the
probability space. We regard this structure as an inductive bias of the teacher
model, capturing generalizable output patterns beneficial to student learning.
To exploit this bias, we propose Probabilistic CoreSet (PCoreSet), a selection
strategy that maximizes coverage in the probability space rather than the
feature space. PCoreSet strategically selects categorically diverse unlabeled
samples, facilitating more efficient transfer of teacher knowledge under
limited annotation budgets. Evaluations on 11 datasets show that PCoreSet
consistently outperforms existing selection methods within the ActiveKD
framework, advancing research at the intersection of AL and KD.