ChatPaper.aiChatPaper

Distillation semi-supervisée simple à partir de modèles vision-langage via une optimisation à double tête texttt{D}ual-texttt{H}ead texttt{O}ptimization

Simple Semi-supervised Knowledge Distillation from Vision-Language Models via texttt{D}ual-texttt{H}ead texttt{O}ptimization

May 12, 2025
Auteurs: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang
cs.AI

Résumé

Les modèles vision-langage (VLMs) ont obtenu un succès remarquable dans diverses tâches en exploitant des informations textuelles riches avec un minimum de données étiquetées. Cependant, le déploiement de ces grands modèles reste difficile, en particulier dans des environnements aux ressources limitées. La distillation de connaissances (KD) offre une solution bien établie à ce problème ; cependant, les approches récentes de KD à partir de VLMs impliquent souvent un entraînement en plusieurs étapes ou un réglage supplémentaire, augmentant la surcharge computationnelle et la complexité de l'optimisation. Dans cet article, nous proposons \texttt{D}ual-\texttt{H}ead \texttt{O}ptimization (\texttt{DHO}) -- un cadre de KD simple mais efficace qui transfère les connaissances des VLMs vers des modèles compacts et spécifiques à une tâche dans des contextes semi-supervisés. Plus précisément, nous introduisons des têtes de prédiction doubles qui apprennent indépendamment à partir de données étiquetées et des prédictions de l'enseignant, et proposons de combiner linéairement leurs sorties lors de l'inférence. Nous observons que DHO atténue les conflits de gradient entre les signaux supervisés et de distillation, permettant un apprentissage des caractéristiques plus efficace que les baselines à tête unique de KD. Par conséquent, des expériences approfondies montrent que DHO surpasse systématiquement les baselines dans plusieurs domaines et sur des ensembles de données à granularité fine. Notamment, sur ImageNet, il atteint des performances de pointe, améliorant la précision de 3 % et 0,1 % avec respectivement 1 % et 10 % de données étiquetées, tout en utilisant moins de paramètres.
English
Vision-language models (VLMs) have achieved remarkable success across diverse tasks by leveraging rich textual information with minimal labeled data. However, deploying such large models remains challenging, particularly in resource-constrained environments. Knowledge distillation (KD) offers a well-established solution to this problem; however, recent KD approaches from VLMs often involve multi-stage training or additional tuning, increasing computational overhead and optimization complexity. In this paper, we propose texttt{D}ual-texttt{H}ead texttt{O}ptimization (texttt{DHO}) -- a simple yet effective KD framework that transfers knowledge from VLMs to compact, task-specific models in semi-supervised settings. Specifically, we introduce dual prediction heads that independently learn from labeled data and teacher predictions, and propose to linearly combine their outputs during inference. We observe that DHO mitigates gradient conflicts between supervised and distillation signals, enabling more effective feature learning than single-head KD baselines. As a result, extensive experiments show that DHO consistently outperforms baselines across multiple domains and fine-grained datasets. Notably, on ImageNet, it achieves state-of-the-art performance, improving accuracy by 3% and 0.1% with 1% and 10% labeled data, respectively, while using fewer parameters.

Summary

AI-Generated Summary

PDF183May 19, 2025