ReCLIP : Affinement du pré-entraînement contrastif texte-image par adaptation de domaine sans source
ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation
August 4, 2023
Auteurs: Hu. Xuefeng, Zhang. Ke, Xia. Lu, Chen. Albert, Luo. Jiajia, Sun. Yuyin, Wang. Ken, Qiao. Nan, Zeng. Xiao, Sun. Min, Kuo. Cheng-Hao, Nevatia. Ram
cs.AI
Résumé
Les modèles de pré-entraînement à grande échelle pour la vision et le langage, tels que CLIP, ont démontré des performances exceptionnelles en classification zero-shot, atteignant par exemple une précision top-1 de 76,3 % sur ImageNet sans avoir vu aucun exemple, ce qui ouvre des perspectives prometteuses pour de nombreuses tâches dépourvues de données annotées. Cependant, lors de l'application de CLIP à un domaine cible en aval, la présence d'écarts entre les domaines visuels et textuels, ainsi que les désalignements inter-modaux, peuvent considérablement affecter les performances du modèle. Pour relever ces défis, nous proposons ReCLIP, la première méthode d'adaptation de domaine sans source pour les modèles vision-langage, qui ne nécessite aucune donnée source ni donnée cible annotée. ReCLIP apprend d'abord un espace de projection pour atténuer les désalignements des embeddings visuels-textuels et génère des pseudo-labels, puis déploie un auto-apprentissage inter-modal avec ces pseudo-labels pour mettre à jour les encodeurs visuels et textuels, affiner les labels et réduire les écarts de domaine et les désalignements de manière itérative. Grâce à des expérimentations approfondies, nous montrons que ReCLIP réduit le taux d'erreur moyen de CLIP de 30,17 % à 25,06 % sur 22 benchmarks de classification d'images.
English
Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated
outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1
accuracy on ImageNet without seeing any example, which leads to potential
benefits to many tasks that have no labeled data. However, while applying CLIP
to a downstream target domain, the presence of visual and text domain gaps and
cross-modality misalignment can greatly impact the model performance. To
address such challenges, we propose ReCLIP, the first source-free domain
adaptation method for vision-language models, which does not require any source
data or target labeled data. ReCLIP first learns a projection space to mitigate
the misaligned visual-text embeddings and learns pseudo labels, and then
deploys cross-modality self-training with the pseudo labels, to update visual
and text encoders, refine labels and reduce domain gaps and misalignments
iteratively. With extensive experiments, we demonstrate ReCLIP reduces the
average error rate of CLIP from 30.17% to 25.06% on 22 image classification
benchmarks.