ChatPaper.aiChatPaper

PCoreSet: Effektives aktives Lernen durch Wissensdistillation von Vision-Sprache-Modellen

PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

June 1, 2025
Autoren: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang
cs.AI

Zusammenfassung

Knowledge Distillation (KD) ist ein weit verbreitetes Framework, das kompakte, aufgaben-spezifische Modelle durch die Nutzung des Wissens von Lehrer-Modellen trainiert. Seine Anwendung auf Active Learning (AL), das darauf abzielt, Annotationkosten durch iterative Stichprobenauswahl zu minimieren, bleibt jedoch weitgehend unerforscht. Diese Lücke ergibt sich aus der Tatsache, dass KD typischerweise den Zugriff auf ausreichend gelabelte Daten voraussetzt, während AL in datenarmen Szenarien operiert, in denen aufgaben-spezifische Lehrer-Modelle oft nicht verfügbar sind. In diesem Artikel stellen wir ActiveKD vor, ein Framework, das AL mit KD integriert, indem es die Zero- und Few-Shot-Fähigkeiten großer Vision-Language-Modelle (VLMs) nutzt. Ein zentraler Aspekt von ActiveKD ist die strukturierte Vorhersageverzerrung von VLMs – d.h., ihre Vorhersagen bilden Cluster im Wahrscheinlichkeitsraum. Wir betrachten diese Struktur als einen induktiven Bias des Lehrer-Modells, der generalisierbare Ausgabemuster erfasst, die für das Lernen des Schülers vorteilhaft sind. Um diesen Bias zu nutzen, schlagen wir Probabilistic CoreSet (PCoreSet) vor, eine Auswahlstrategie, die die Abdeckung im Wahrscheinlichkeitsraum anstelle des Merkmalsraums maximiert. PCoreSet wählt strategisch kategorial diverse ungelabelte Stichproben aus und ermöglicht so einen effizienteren Transfer des Lehrerwissens unter begrenzten Annotationbudgets. Evaluierungen auf 11 Datensätzen zeigen, dass PCoreSet bestehende Auswahlmethoden innerhalb des ActiveKD-Frameworks konsequent übertrifft und die Forschung an der Schnittstelle von AL und KD vorantreibt.
English
Knowledge distillation (KD) is a widely used framework for training compact, task-specific models by leveraging the knowledge of teacher models. However, its application to active learning (AL), which aims to minimize annotation costs through iterative sample selection, remains underexplored. This gap stems from the fact that KD typically assumes access to sufficient labeled data, whereas AL operates in data-scarce scenarios where task-specific teacher models are often unavailable. In this paper, we introduce ActiveKD, a framework that integrates AL with KD by leveraging the zero- and few-shot capabilities of large vision-language models (VLMs). A key aspect of ActiveKD is the structured prediction bias of VLMs -- i.e., their predictions form clusters in the probability space. We regard this structure as an inductive bias of the teacher model, capturing generalizable output patterns beneficial to student learning. To exploit this bias, we propose Probabilistic CoreSet (PCoreSet), a selection strategy that maximizes coverage in the probability space rather than the feature space. PCoreSet strategically selects categorically diverse unlabeled samples, facilitating more efficient transfer of teacher knowledge under limited annotation budgets. Evaluations on 11 datasets show that PCoreSet consistently outperforms existing selection methods within the ActiveKD framework, advancing research at the intersection of AL and KD.
PDF103June 4, 2025