ChatPaper.aiChatPaper

Distilação de Conhecimento Semi-supervisionada Simples a partir de Modelos Visão-Linguagem via Otimização texttt{D}ual-texttt{H}ead texttt{O}

Simple Semi-supervised Knowledge Distillation from Vision-Language Models via texttt{D}ual-texttt{H}ead texttt{O}ptimization

May 12, 2025
Autores: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang
cs.AI

Resumo

Modelos visão-linguagem (VLMs) têm alcançado sucesso notável em diversas tarefas ao aproveitar informações textuais ricas com dados rotulados mínimos. No entanto, a implantação desses modelos grandes continua desafiadora, especialmente em ambientes com recursos limitados. A destilação de conhecimento (KD) oferece uma solução bem estabelecida para esse problema; porém, abordagens recentes de KD a partir de VLMs frequentemente envolvem treinamento em múltiplas etapas ou ajustes adicionais, aumentando a sobrecarga computacional e a complexidade de otimização. Neste artigo, propomos o \texttt{D}ual-\texttt{H}ead \texttt{O}ptimization (\texttt{DHO}) — uma estrutura de KD simples, porém eficaz, que transfere conhecimento de VLMs para modelos compactos e específicos de tarefas em configurações semi-supervisionadas. Especificamente, introduzimos cabeças de predição duplas que aprendem independentemente a partir de dados rotulados e previsões do professor, e propomos combinar linearmente suas saídas durante a inferência. Observamos que o DHO mitiga conflitos de gradiente entre sinais supervisionados e de destilação, permitindo um aprendizado de características mais eficaz do que as linhas de base de KD de cabeça única. Como resultado, experimentos extensivos mostram que o DHO supera consistentemente as linhas de base em múltiplos domínios e conjuntos de dados de granularidade fina. Notavelmente, no ImageNet, ele alcança desempenho de ponta, melhorando a acurácia em 3% e 0,1% com 1% e 10% de dados rotulados, respectivamente, enquanto utiliza menos parâmetros.
English
Vision-language models (VLMs) have achieved remarkable success across diverse tasks by leveraging rich textual information with minimal labeled data. However, deploying such large models remains challenging, particularly in resource-constrained environments. Knowledge distillation (KD) offers a well-established solution to this problem; however, recent KD approaches from VLMs often involve multi-stage training or additional tuning, increasing computational overhead and optimization complexity. In this paper, we propose texttt{D}ual-texttt{H}ead texttt{O}ptimization (texttt{DHO}) -- a simple yet effective KD framework that transfers knowledge from VLMs to compact, task-specific models in semi-supervised settings. Specifically, we introduce dual prediction heads that independently learn from labeled data and teacher predictions, and propose to linearly combine their outputs during inference. We observe that DHO mitigates gradient conflicts between supervised and distillation signals, enabling more effective feature learning than single-head KD baselines. As a result, extensive experiments show that DHO consistently outperforms baselines across multiple domains and fine-grained datasets. Notably, on ImageNet, it achieves state-of-the-art performance, improving accuracy by 3% and 0.1% with 1% and 10% labeled data, respectively, while using fewer parameters.
PDF203May 19, 2025