PCoreSet: Effectief Actief Leren via Kennisdistillatie uit Visie-Taalmodellen

Samenvatting

Kennisdistillatie (KD) is een veelgebruikt raamwerk voor het trainen van compacte, taakspecifieke modellen door gebruik te maken van de kennis van leraarmodellen. De toepassing ervan op actief leren (AL), dat tot doel heeft annotatiekosten te minimaliseren door iteratieve steekproefselectie, blijft echter onderbelicht. Deze kloof ontstaat doordat KD doorgaans uitgaat van toegang tot voldoende gelabelde gegevens, terwijl AL opereert in scenario's met schaarse gegevens waarin taakspecifieke leraarmodellen vaak niet beschikbaar zijn. In dit artikel introduceren we ActiveKD, een raamwerk dat AL integreert met KD door gebruik te maken van de zero- en few-shot mogelijkheden van grote vision-language modellen (VLMs). Een belangrijk aspect van ActiveKD is de gestructureerde voorspellingsbias van VLMs -- d.w.z. hun voorspellingen vormen clusters in de waarschijnlijkheidsruimte. We beschouwen deze structuur als een inductieve bias van het leraarmodel, die generaliseerbare uitvoerpatronen vastlegt die nuttig zijn voor het leren van de student. Om deze bias te benutten, stellen we Probabilistic CoreSet (PCoreSet) voor, een selectiestrategie die de dekking in de waarschijnlijkheidsruimte maximaliseert in plaats van in de kenmerkruimte. PCoreSet selecteert strategisch categorisch diverse niet-gelabelde steekproeven, wat een efficiëntere overdracht van leraarkennis mogelijk maakt onder beperkte annotatiebudgetten. Evaluaties op 11 datasets tonen aan dat PCoreSet consistent beter presteert dan bestaande selectiemethoden binnen het ActiveKD-raamwerk, wat het onderzoek op het snijvlak van AL en KD vooruithelpt.

English

Knowledge distillation (KD) is a widely used framework for training compact, task-specific models by leveraging the knowledge of teacher models. However, its application to active learning (AL), which aims to minimize annotation costs through iterative sample selection, remains underexplored. This gap stems from the fact that KD typically assumes access to sufficient labeled data, whereas AL operates in data-scarce scenarios where task-specific teacher models are often unavailable. In this paper, we introduce ActiveKD, a framework that integrates AL with KD by leveraging the zero- and few-shot capabilities of large vision-language models (VLMs). A key aspect of ActiveKD is the structured prediction bias of VLMs -- i.e., their predictions form clusters in the probability space. We regard this structure as an inductive bias of the teacher model, capturing generalizable output patterns beneficial to student learning. To exploit this bias, we propose Probabilistic CoreSet (PCoreSet), a selection strategy that maximizes coverage in the probability space rather than the feature space. PCoreSet strategically selects categorically diverse unlabeled samples, facilitating more efficient transfer of teacher knowledge under limited annotation budgets. Evaluations on 11 datasets show that PCoreSet consistently outperforms existing selection methods within the ActiveKD framework, advancing research at the intersection of AL and KD.

PCoreSet: Effectief Actief Leren via Kennisdistillatie uit Visie-Taalmodellen

PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

Samenvatting

Support