ReCLIP: Verfeinerung des kontrastiven Sprach-Bild-Vorabtrainings mit quellenfreier Domänenanpassung
ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation
August 4, 2023
papers.authors: Hu. Xuefeng, Zhang. Ke, Xia. Lu, Chen. Albert, Luo. Jiajia, Sun. Yuyin, Wang. Ken, Qiao. Nan, Zeng. Xiao, Sun. Min, Kuo. Cheng-Hao, Nevatia. Ram
cs.AI
papers.abstract
Große vortrainierte Vision-Sprach-Modelle wie CLIP haben herausragende Leistungen in der Zero-Shot-Klassifikation gezeigt, beispielsweise eine Top-1-Genauigkeit von 76,3 % auf ImageNet, ohne zuvor Beispiele gesehen zu haben. Dies birgt potenzielle Vorteile für viele Aufgaben, für die keine annotierten Daten vorhanden sind. Allerdings kann die Anwendung von CLIP auf eine nachgelagerte Zieldomäne durch visuelle und textuelle Domänenlücken sowie durch Fehlausrichtungen zwischen den Modalitäten die Modellleistung erheblich beeinträchtigen. Um diese Herausforderungen zu bewältigen, schlagen wir ReCLIP vor, die erste quellfreie Domänenanpassungsmethode für Vision-Sprach-Modelle, die weder Quelldaten noch annotierte Zieldaten benötigt. ReCLIP lernt zunächst einen Projektionsraum, um die fehlausgerichteten visuell-textuellen Einbettungen zu mildern und Pseudolabels zu erzeugen. Anschließend wird ein Cross-Modality-Selbsttraining mit diesen Pseudolabels eingesetzt, um die visuellen und textuellen Encoder zu aktualisieren, die Labels zu verfeinern und Domänenlücken sowie Fehlausrichtungen iterativ zu reduzieren. Umfangreiche Experimente zeigen, dass ReCLIP die durchschnittliche Fehlerrate von CLIP von 30,17 % auf 25,06 % bei 22 Bildklassifizierungs-Benchmarks reduziert.
English
Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated
outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1
accuracy on ImageNet without seeing any example, which leads to potential
benefits to many tasks that have no labeled data. However, while applying CLIP
to a downstream target domain, the presence of visual and text domain gaps and
cross-modality misalignment can greatly impact the model performance. To
address such challenges, we propose ReCLIP, the first source-free domain
adaptation method for vision-language models, which does not require any source
data or target labeled data. ReCLIP first learns a projection space to mitigate
the misaligned visual-text embeddings and learns pseudo labels, and then
deploys cross-modality self-training with the pseudo labels, to update visual
and text encoders, refine labels and reduce domain gaps and misalignments
iteratively. With extensive experiments, we demonstrate ReCLIP reduces the
average error rate of CLIP from 30.17% to 25.06% on 22 image classification
benchmarks.