ChatPaper.aiChatPaper

シンプルな半教師あり知識蒸留:ビジョン・ランゲージモデルからのデュアルヘッド最適化

Simple Semi-supervised Knowledge Distillation from Vision-Language Models via texttt{D}ual-texttt{H}ead texttt{O}ptimization

May 12, 2025
著者: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang
cs.AI

要旨

視覚言語モデル(VLM)は、最小限のラベル付きデータで豊富なテキスト情報を活用することで、多様なタスクで顕著な成功を収めています。しかし、このような大規模モデルの展開は、特にリソースが制約された環境では依然として課題となっています。知識蒸留(KD)はこの問題に対する確立された解決策を提供しますが、最近のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングが含まれることが多く、計算オーバーヘッドと最適化の複雑さを増大させています。本論文では、texttt{D}ual-texttt{H}ead texttt{O}ptimization(texttt{DHO})を提案します。これは、半教師あり設定においてVLMからコンパクトでタスク固有のモデルに知識を転送する、シンプルでありながら効果的なKDフレームワークです。具体的には、ラベル付きデータと教師の予測から独立して学習するデュアル予測ヘッドを導入し、推論時にそれらの出力を線形結合することを提案します。DHOは、教師あり信号と蒸留信号の間の勾配衝突を緩和し、シングルヘッドKDベースラインよりも効果的な特徴学習を可能にすることが観察されます。その結果、広範な実験により、DHOが複数のドメインと細粒度データセットにわたって一貫してベースラインを上回ることが示されています。特に、ImageNetでは、1%と10%のラベル付きデータでそれぞれ3%と0.1%の精度向上を達成し、より少ないパラメータを使用しながら最先端の性能を実現しています。
English
Vision-language models (VLMs) have achieved remarkable success across diverse tasks by leveraging rich textual information with minimal labeled data. However, deploying such large models remains challenging, particularly in resource-constrained environments. Knowledge distillation (KD) offers a well-established solution to this problem; however, recent KD approaches from VLMs often involve multi-stage training or additional tuning, increasing computational overhead and optimization complexity. In this paper, we propose texttt{D}ual-texttt{H}ead texttt{O}ptimization (texttt{DHO}) -- a simple yet effective KD framework that transfers knowledge from VLMs to compact, task-specific models in semi-supervised settings. Specifically, we introduce dual prediction heads that independently learn from labeled data and teacher predictions, and propose to linearly combine their outputs during inference. We observe that DHO mitigates gradient conflicts between supervised and distillation signals, enabling more effective feature learning than single-head KD baselines. As a result, extensive experiments show that DHO consistently outperforms baselines across multiple domains and fine-grained datasets. Notably, on ImageNet, it achieves state-of-the-art performance, improving accuracy by 3% and 0.1% with 1% and 10% labeled data, respectively, while using fewer parameters.

Summary

AI-Generated Summary

PDF183May 19, 2025