Distillazione Semi-supervisionata Semplice da Modelli Visione-Linguaggio tramite Ottimizzazione texttt{D}oppia texttt{T}esta
Simple Semi-supervised Knowledge Distillation from Vision-Language Models via texttt{D}ual-texttt{H}ead texttt{O}ptimization
May 12, 2025
Autori: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno ottenuto un successo notevole in una vasta gamma di compiti sfruttando informazioni testuali ricche con una quantità minima di dati etichettati. Tuttavia, il dispiegamento di tali modelli di grandi dimensioni rimane impegnativo, specialmente in ambienti con risorse limitate. La distillazione della conoscenza (KD) offre una soluzione ben consolidata a questo problema; tuttavia, i recenti approcci di KD basati su VLMs spesso implicano un addestramento multi-stadio o un'ulteriore ottimizzazione, aumentando il sovraccarico computazionale e la complessità dell'ottimizzazione. In questo articolo, proponiamo l'ottimizzazione a doppia testa (texttt{DHO}) — un framework di KD semplice ma efficace che trasferisce la conoscenza dai VLMs a modelli compatti e specifici per il compito in contesti semi-supervisionati. Nello specifico, introduciamo doppie teste di previsione che apprendono in modo indipendente dai dati etichettati e dalle previsioni del modello insegnante, e proponiamo di combinare linearmente i loro output durante l'inferenza. Osserviamo che DHO mitiga i conflitti di gradiente tra i segnali supervisionati e di distillazione, consentendo un apprendimento delle caratteristiche più efficace rispetto alle baseline KD a testa singola. Di conseguenza, esperimenti estensivi dimostrano che DHO supera costantemente le baseline in più domini e dataset granulari. In particolare, su ImageNet, raggiunge prestazioni all'avanguardia, migliorando l'accuratezza del 3% e dello 0,1% rispettivamente con l'1% e il 10% di dati etichettati, utilizzando contemporaneamente un numero inferiore di parametri.
English
Vision-language models (VLMs) have achieved remarkable success across diverse
tasks by leveraging rich textual information with minimal labeled data.
However, deploying such large models remains challenging, particularly in
resource-constrained environments. Knowledge distillation (KD) offers a
well-established solution to this problem; however, recent KD approaches from
VLMs often involve multi-stage training or additional tuning, increasing
computational overhead and optimization complexity. In this paper, we propose
texttt{D}ual-texttt{H}ead
texttt{O}ptimization (texttt{DHO}) -- a simple yet
effective KD framework that transfers knowledge from VLMs to compact,
task-specific models in semi-supervised settings. Specifically, we introduce
dual prediction heads that independently learn from labeled data and teacher
predictions, and propose to linearly combine their outputs during inference. We
observe that DHO mitigates gradient conflicts between supervised and
distillation signals, enabling more effective feature learning than single-head
KD baselines. As a result, extensive experiments show that DHO
consistently outperforms baselines across multiple domains and fine-grained
datasets. Notably, on ImageNet, it achieves state-of-the-art performance,
improving accuracy by 3% and 0.1% with 1% and 10% labeled data, respectively,
while using fewer parameters.