ReCLIP: Refinamento do Pré-Treinamento de Linguagem e Imagem Contrastiva com Adaptação de Domínio Livre de Fontes
ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation
August 4, 2023
Autores: Hu. Xuefeng, Zhang. Ke, Xia. Lu, Chen. Albert, Luo. Jiajia, Sun. Yuyin, Wang. Ken, Qiao. Nan, Zeng. Xiao, Sun. Min, Kuo. Cheng-Hao, Nevatia. Ram
cs.AI
Resumo
Modelos de Pré-Treinamento em Grande Escala de Visão e Linguagem, como o CLIP, demonstraram desempenho excepcional em classificação zero-shot, por exemplo, alcançando 76,3% de precisão top-1 no ImageNet sem ver nenhum exemplo, o que traz benefícios potenciais para muitas tarefas que não possuem dados rotulados. No entanto, ao aplicar o CLIP a um domínio de destino downstream, a presença de lacunas de domínio visual e textual e o desalinhamento entre modalidades podem impactar significativamente o desempenho do modelo. Para enfrentar esses desafios, propomos o ReCLIP, o primeiro método de adaptação de domínio sem fonte para modelos de visão e linguagem, que não requer nenhum dado de origem ou dados rotulados de destino. O ReCLIP primeiro aprende um espaço de projeção para mitigar o desalinhamento dos embeddings visuais e textuais e aprende rótulos pseudo, e então implanta o auto-treinamento entre modalidades com os rótulos pseudo, para atualizar os codificadores visuais e textuais, refinar os rótulos e reduzir as lacunas de domínio e os desalinhamentos de forma iterativa. Com experimentos extensivos, demonstramos que o ReCLIP reduz a taxa média de erro do CLIP de 30,17% para 25,06% em 22 benchmarks de classificação de imagens.
English
Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated
outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1
accuracy on ImageNet without seeing any example, which leads to potential
benefits to many tasks that have no labeled data. However, while applying CLIP
to a downstream target domain, the presence of visual and text domain gaps and
cross-modality misalignment can greatly impact the model performance. To
address such challenges, we propose ReCLIP, the first source-free domain
adaptation method for vision-language models, which does not require any source
data or target labeled data. ReCLIP first learns a projection space to mitigate
the misaligned visual-text embeddings and learns pseudo labels, and then
deploys cross-modality self-training with the pseudo labels, to update visual
and text encoders, refine labels and reduce domain gaps and misalignments
iteratively. With extensive experiments, we demonstrate ReCLIP reduces the
average error rate of CLIP from 30.17% to 25.06% on 22 image classification
benchmarks.