ReCLIP: Verfijn Contrastief Taal-Beeld Vooraf Trainen met Bronvrije Domeinaanpassing
ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation
August 4, 2023
Auteurs: Hu. Xuefeng, Zhang. Ke, Xia. Lu, Chen. Albert, Luo. Jiajia, Sun. Yuyin, Wang. Ken, Qiao. Nan, Zeng. Xiao, Sun. Min, Kuo. Cheng-Hao, Nevatia. Ram
cs.AI
Samenvatting
Grootschalige vooraf getrainde visie-taalmodellen zoals CLIP hebben uitstekende prestaties getoond in zero-shot classificatie, bijvoorbeeld door een top-1 nauwkeurigheid van 76,3% te behalen op ImageNet zonder enige voorbeelden te hebben gezien, wat potentiële voordelen biedt voor veel taken zonder gelabelde data. Echter, bij het toepassen van CLIP op een downstream doelgebied, kunnen de aanwezigheid van visuele en tekstuele domeinkloeven en cross-modale misalignement de modelprestaties sterk beïnvloeden. Om deze uitdagingen aan te pakken, stellen we ReCLIP voor, de eerste bronvrije domeinaanpassingsmethode voor visie-taalmodellen, die geen brondata of gelabelde doeldata vereist. ReCLIP leert eerst een projectieruimte om de misaligned visuele-tekst embeddings te mitigeren en pseudo-labels te leren, en implementeert vervolgens cross-modale zelf-training met de pseudo-labels om visuele en tekstuele encoders bij te werken, labels te verfijnen en domeinkloeven en misalignementen iteratief te verminderen. Met uitgebreide experimenten tonen we aan dat ReCLIP het gemiddelde foutpercentage van CLIP verlaagt van 30,17% naar 25,06% op 22 beeldclassificatiebenchmarks.
English
Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated
outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1
accuracy on ImageNet without seeing any example, which leads to potential
benefits to many tasks that have no labeled data. However, while applying CLIP
to a downstream target domain, the presence of visual and text domain gaps and
cross-modality misalignment can greatly impact the model performance. To
address such challenges, we propose ReCLIP, the first source-free domain
adaptation method for vision-language models, which does not require any source
data or target labeled data. ReCLIP first learns a projection space to mitigate
the misaligned visual-text embeddings and learns pseudo labels, and then
deploys cross-modality self-training with the pseudo labels, to update visual
and text encoders, refine labels and reduce domain gaps and misalignments
iteratively. With extensive experiments, we demonstrate ReCLIP reduces the
average error rate of CLIP from 30.17% to 25.06% on 22 image classification
benchmarks.