ReCLIP: Affinamento del Pre-Addestramento Contrastivo Linguaggio-Immagine con Adattamento al Dominio Senza Sorgente
ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation
August 4, 2023
Autori: Hu. Xuefeng, Zhang. Ke, Xia. Lu, Chen. Albert, Luo. Jiajia, Sun. Yuyin, Wang. Ken, Qiao. Nan, Zeng. Xiao, Sun. Min, Kuo. Cheng-Hao, Nevatia. Ram
cs.AI
Abstract
I modelli di pre-addestramento su larga scala per la visione e il linguaggio, come CLIP, hanno dimostrato prestazioni eccezionali nella classificazione zero-shot, raggiungendo ad esempio un'accuratezza top-1 del 76,3% su ImageNet senza aver visto alcun esempio, il che apre potenziali benefici per molti compiti privi di dati etichettati. Tuttavia, quando si applica CLIP a un dominio target downstream, la presenza di divari tra i domini visivi e testuali e il disallineamento cross-modale possono influenzare significativamente le prestazioni del modello. Per affrontare queste sfide, proponiamo ReCLIP, il primo metodo di adattamento al dominio senza dati sorgente per modelli visione-linguaggio, che non richiede dati sorgente né dati target etichettati. ReCLIP apprende inizialmente uno spazio di proiezione per mitigare l'incongruenza degli embedding visivo-testuali e genera etichette pseudo, per poi applicare un auto-addestramento cross-modale con queste etichette pseudo, aggiornando gli encoder visivi e testuali, affinando le etichette e riducendo iterativamente i divari di dominio e i disallineamenti. Attraverso esperimenti estensivi, dimostriamo che ReCLIP riduce il tasso di errore medio di CLIP dal 30,17% al 25,06% su 22 benchmark di classificazione di immagini.
English
Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated
outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1
accuracy on ImageNet without seeing any example, which leads to potential
benefits to many tasks that have no labeled data. However, while applying CLIP
to a downstream target domain, the presence of visual and text domain gaps and
cross-modality misalignment can greatly impact the model performance. To
address such challenges, we propose ReCLIP, the first source-free domain
adaptation method for vision-language models, which does not require any source
data or target labeled data. ReCLIP first learns a projection space to mitigate
the misaligned visual-text embeddings and learns pseudo labels, and then
deploys cross-modality self-training with the pseudo labels, to update visual
and text encoders, refine labels and reduce domain gaps and misalignments
iteratively. With extensive experiments, we demonstrate ReCLIP reduces the
average error rate of CLIP from 30.17% to 25.06% on 22 image classification
benchmarks.