PCoreSet: Effectief Actief Leren via Kennisdistillatie uit Visie-Taalmodellen
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models
June 1, 2025
Auteurs: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang
cs.AI
Samenvatting
Kennisdistillatie (KD) is een veelgebruikt raamwerk voor het trainen van compacte, taakspecifieke modellen door gebruik te maken van de kennis van leraarmodellen. De toepassing ervan op actief leren (AL), dat tot doel heeft annotatiekosten te minimaliseren door iteratieve steekproefselectie, blijft echter onderbelicht. Deze kloof ontstaat doordat KD doorgaans uitgaat van toegang tot voldoende gelabelde gegevens, terwijl AL opereert in scenario's met schaarse gegevens waarin taakspecifieke leraarmodellen vaak niet beschikbaar zijn. In dit artikel introduceren we ActiveKD, een raamwerk dat AL integreert met KD door gebruik te maken van de zero- en few-shot mogelijkheden van grote vision-language modellen (VLMs). Een belangrijk aspect van ActiveKD is de gestructureerde voorspellingsbias van VLMs -- d.w.z. hun voorspellingen vormen clusters in de waarschijnlijkheidsruimte. We beschouwen deze structuur als een inductieve bias van het leraarmodel, die generaliseerbare uitvoerpatronen vastlegt die nuttig zijn voor het leren van de student. Om deze bias te benutten, stellen we Probabilistic CoreSet (PCoreSet) voor, een selectiestrategie die de dekking in de waarschijnlijkheidsruimte maximaliseert in plaats van in de kenmerkruimte. PCoreSet selecteert strategisch categorisch diverse niet-gelabelde steekproeven, wat een efficiëntere overdracht van leraarkennis mogelijk maakt onder beperkte annotatiebudgetten. Evaluaties op 11 datasets tonen aan dat PCoreSet consistent beter presteert dan bestaande selectiemethoden binnen het ActiveKD-raamwerk, wat het onderzoek op het snijvlak van AL en KD vooruithelpt.
English
Knowledge distillation (KD) is a widely used framework for training compact,
task-specific models by leveraging the knowledge of teacher models. However,
its application to active learning (AL), which aims to minimize annotation
costs through iterative sample selection, remains underexplored. This gap stems
from the fact that KD typically assumes access to sufficient labeled data,
whereas AL operates in data-scarce scenarios where task-specific teacher models
are often unavailable. In this paper, we introduce ActiveKD, a framework that
integrates AL with KD by leveraging the zero- and few-shot capabilities of
large vision-language models (VLMs). A key aspect of ActiveKD is the structured
prediction bias of VLMs -- i.e., their predictions form clusters in the
probability space. We regard this structure as an inductive bias of the teacher
model, capturing generalizable output patterns beneficial to student learning.
To exploit this bias, we propose Probabilistic CoreSet (PCoreSet), a selection
strategy that maximizes coverage in the probability space rather than the
feature space. PCoreSet strategically selects categorically diverse unlabeled
samples, facilitating more efficient transfer of teacher knowledge under
limited annotation budgets. Evaluations on 11 datasets show that PCoreSet
consistently outperforms existing selection methods within the ActiveKD
framework, advancing research at the intersection of AL and KD.