PCoreSet: Effektives aktives Lernen durch Wissensdistillation von Vision-Sprache-Modellen
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models
June 1, 2025
Autoren: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang
cs.AI
Zusammenfassung
Knowledge Distillation (KD) ist ein weit verbreitetes Framework, das kompakte, aufgaben-spezifische Modelle durch die Nutzung des Wissens von Lehrer-Modellen trainiert. Seine Anwendung auf Active Learning (AL), das darauf abzielt, Annotationkosten durch iterative Stichprobenauswahl zu minimieren, bleibt jedoch weitgehend unerforscht. Diese Lücke ergibt sich aus der Tatsache, dass KD typischerweise den Zugriff auf ausreichend gelabelte Daten voraussetzt, während AL in datenarmen Szenarien operiert, in denen aufgaben-spezifische Lehrer-Modelle oft nicht verfügbar sind. In diesem Artikel stellen wir ActiveKD vor, ein Framework, das AL mit KD integriert, indem es die Zero- und Few-Shot-Fähigkeiten großer Vision-Language-Modelle (VLMs) nutzt. Ein zentraler Aspekt von ActiveKD ist die strukturierte Vorhersageverzerrung von VLMs – d.h., ihre Vorhersagen bilden Cluster im Wahrscheinlichkeitsraum. Wir betrachten diese Struktur als einen induktiven Bias des Lehrer-Modells, der generalisierbare Ausgabemuster erfasst, die für das Lernen des Schülers vorteilhaft sind. Um diesen Bias zu nutzen, schlagen wir Probabilistic CoreSet (PCoreSet) vor, eine Auswahlstrategie, die die Abdeckung im Wahrscheinlichkeitsraum anstelle des Merkmalsraums maximiert. PCoreSet wählt strategisch kategorial diverse ungelabelte Stichproben aus und ermöglicht so einen effizienteren Transfer des Lehrerwissens unter begrenzten Annotationbudgets. Evaluierungen auf 11 Datensätzen zeigen, dass PCoreSet bestehende Auswahlmethoden innerhalb des ActiveKD-Frameworks konsequent übertrifft und die Forschung an der Schnittstelle von AL und KD vorantreibt.
English
Knowledge distillation (KD) is a widely used framework for training compact,
task-specific models by leveraging the knowledge of teacher models. However,
its application to active learning (AL), which aims to minimize annotation
costs through iterative sample selection, remains underexplored. This gap stems
from the fact that KD typically assumes access to sufficient labeled data,
whereas AL operates in data-scarce scenarios where task-specific teacher models
are often unavailable. In this paper, we introduce ActiveKD, a framework that
integrates AL with KD by leveraging the zero- and few-shot capabilities of
large vision-language models (VLMs). A key aspect of ActiveKD is the structured
prediction bias of VLMs -- i.e., their predictions form clusters in the
probability space. We regard this structure as an inductive bias of the teacher
model, capturing generalizable output patterns beneficial to student learning.
To exploit this bias, we propose Probabilistic CoreSet (PCoreSet), a selection
strategy that maximizes coverage in the probability space rather than the
feature space. PCoreSet strategically selects categorically diverse unlabeled
samples, facilitating more efficient transfer of teacher knowledge under
limited annotation budgets. Evaluations on 11 datasets show that PCoreSet
consistently outperforms existing selection methods within the ActiveKD
framework, advancing research at the intersection of AL and KD.