Distribución de Conocimiento Semi-supervisado Simple desde Modelos de Visión-Lenguaje mediante Optimización de Doble Cabeza (texttt{D}ual-texttt{H}ead texttt{O}ptimization)
Simple Semi-supervised Knowledge Distillation from Vision-Language Models via texttt{D}ual-texttt{H}ead texttt{O}ptimization
May 12, 2025
Autores: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han logrado un éxito notable en diversas tareas al aprovechar información textual rica con un mínimo de datos etiquetados. Sin embargo, desplegar estos modelos grandes sigue siendo un desafío, especialmente en entornos con recursos limitados. La destilación de conocimiento (KD, por sus siglas en inglés) ofrece una solución bien establecida a este problema; no obstante, los enfoques recientes de KD basados en VLMs a menudo implican entrenamiento en múltiples etapas o ajustes adicionales, lo que aumenta la sobrecarga computacional y la complejidad de la optimización. En este artículo, proponemos texttt{D}ual-texttt{H}ead texttt{O}ptimization (texttt{DHO}) — un marco de KD simple pero efectivo que transfiere conocimiento de VLMs a modelos compactos y específicos de tareas en entornos semi-supervisados. Específicamente, introducimos cabezales de predicción duales que aprenden de manera independiente a partir de datos etiquetados y predicciones del modelo maestro, y proponemos combinar linealmente sus salidas durante la inferencia. Observamos que DHO mitiga los conflictos de gradiente entre las señales supervisadas y de destilación, permitiendo un aprendizaje de características más efectivo que los enfoques de KD de cabezal único. Como resultado, experimentos extensos muestran que DHO supera consistentemente a los enfoques de referencia en múltiples dominios y conjuntos de datos de gran detalle. Notablemente, en ImageNet, logra un rendimiento de vanguardia, mejorando la precisión en un 3% y un 0.1% con un 1% y un 10% de datos etiquetados, respectivamente, mientras utiliza menos parámetros.
English
Vision-language models (VLMs) have achieved remarkable success across diverse
tasks by leveraging rich textual information with minimal labeled data.
However, deploying such large models remains challenging, particularly in
resource-constrained environments. Knowledge distillation (KD) offers a
well-established solution to this problem; however, recent KD approaches from
VLMs often involve multi-stage training or additional tuning, increasing
computational overhead and optimization complexity. In this paper, we propose
texttt{D}ual-texttt{H}ead
texttt{O}ptimization (texttt{DHO}) -- a simple yet
effective KD framework that transfers knowledge from VLMs to compact,
task-specific models in semi-supervised settings. Specifically, we introduce
dual prediction heads that independently learn from labeled data and teacher
predictions, and propose to linearly combine their outputs during inference. We
observe that DHO mitigates gradient conflicts between supervised and
distillation signals, enabling more effective feature learning than single-head
KD baselines. As a result, extensive experiments show that DHO
consistently outperforms baselines across multiple domains and fine-grained
datasets. Notably, on ImageNet, it achieves state-of-the-art performance,
improving accuracy by 3% and 0.1% with 1% and 10% labeled data, respectively,
while using fewer parameters.