ReCLIP: Refinamento do Pré-Treinamento de Linguagem e Imagem Contrastiva com Adaptação de Domínio Livre de Fontes

Resumo

Modelos de Pré-Treinamento em Grande Escala de Visão e Linguagem, como o CLIP, demonstraram desempenho excepcional em classificação zero-shot, por exemplo, alcançando 76,3% de precisão top-1 no ImageNet sem ver nenhum exemplo, o que traz benefícios potenciais para muitas tarefas que não possuem dados rotulados. No entanto, ao aplicar o CLIP a um domínio de destino downstream, a presença de lacunas de domínio visual e textual e o desalinhamento entre modalidades podem impactar significativamente o desempenho do modelo. Para enfrentar esses desafios, propomos o ReCLIP, o primeiro método de adaptação de domínio sem fonte para modelos de visão e linguagem, que não requer nenhum dado de origem ou dados rotulados de destino. O ReCLIP primeiro aprende um espaço de projeção para mitigar o desalinhamento dos embeddings visuais e textuais e aprende rótulos pseudo, e então implanta o auto-treinamento entre modalidades com os rótulos pseudo, para atualizar os codificadores visuais e textuais, refinar os rótulos e reduzir as lacunas de domínio e os desalinhamentos de forma iterativa. Com experimentos extensivos, demonstramos que o ReCLIP reduz a taxa média de erro do CLIP de 30,17% para 25,06% em 22 benchmarks de classificação de imagens.

English

Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1 accuracy on ImageNet without seeing any example, which leads to potential benefits to many tasks that have no labeled data. However, while applying CLIP to a downstream target domain, the presence of visual and text domain gaps and cross-modality misalignment can greatly impact the model performance. To address such challenges, we propose ReCLIP, the first source-free domain adaptation method for vision-language models, which does not require any source data or target labeled data. ReCLIP first learns a projection space to mitigate the misaligned visual-text embeddings and learns pseudo labels, and then deploys cross-modality self-training with the pseudo labels, to update visual and text encoders, refine labels and reduce domain gaps and misalignments iteratively. With extensive experiments, we demonstrate ReCLIP reduces the average error rate of CLIP from 30.17% to 25.06% on 22 image classification benchmarks.

ReCLIP: Refinamento do Pré-Treinamento de Linguagem e Imagem Contrastiva com Adaptação de Domínio Livre de Fontes

ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation

Resumo

Support