ReCLIP: Affinamento del Pre-Addestramento Contrastivo Linguaggio-Immagine con Adattamento al Dominio Senza Sorgente

Abstract

I modelli di pre-addestramento su larga scala per la visione e il linguaggio, come CLIP, hanno dimostrato prestazioni eccezionali nella classificazione zero-shot, raggiungendo ad esempio un'accuratezza top-1 del 76,3% su ImageNet senza aver visto alcun esempio, il che apre potenziali benefici per molti compiti privi di dati etichettati. Tuttavia, quando si applica CLIP a un dominio target downstream, la presenza di divari tra i domini visivi e testuali e il disallineamento cross-modale possono influenzare significativamente le prestazioni del modello. Per affrontare queste sfide, proponiamo ReCLIP, il primo metodo di adattamento al dominio senza dati sorgente per modelli visione-linguaggio, che non richiede dati sorgente né dati target etichettati. ReCLIP apprende inizialmente uno spazio di proiezione per mitigare l'incongruenza degli embedding visivo-testuali e genera etichette pseudo, per poi applicare un auto-addestramento cross-modale con queste etichette pseudo, aggiornando gli encoder visivi e testuali, affinando le etichette e riducendo iterativamente i divari di dominio e i disallineamenti. Attraverso esperimenti estensivi, dimostriamo che ReCLIP riduce il tasso di errore medio di CLIP dal 30,17% al 25,06% su 22 benchmark di classificazione di immagini.

English

Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1 accuracy on ImageNet without seeing any example, which leads to potential benefits to many tasks that have no labeled data. However, while applying CLIP to a downstream target domain, the presence of visual and text domain gaps and cross-modality misalignment can greatly impact the model performance. To address such challenges, we propose ReCLIP, the first source-free domain adaptation method for vision-language models, which does not require any source data or target labeled data. ReCLIP first learns a projection space to mitigate the misaligned visual-text embeddings and learns pseudo labels, and then deploys cross-modality self-training with the pseudo labels, to update visual and text encoders, refine labels and reduce domain gaps and misalignments iteratively. With extensive experiments, we demonstrate ReCLIP reduces the average error rate of CLIP from 30.17% to 25.06% on 22 image classification benchmarks.

ReCLIP: Affinamento del Pre-Addestramento Contrastivo Linguaggio-Immagine con Adattamento al Dominio Senza Sorgente

ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation

Abstract

Support